當前位置:法律諮詢服務網 - 中國稅務 - 決策樹是什麽東東?

決策樹是什麽東東?

小白自學路上的備忘記錄。。。

參考:

決策樹(分類樹、回歸樹)

決策樹 :這個博客的圖真好看,通俗易懂。哈哈

決策樹詳解

決策樹(Decision Tree)是壹種有監督學習算法,常用於分類和回歸。本文僅討論分類問題。

決策樹模型是運用於分類以及回歸的壹種樹結構。決策樹由節點和有向邊組成,壹般壹棵決策樹包含壹個根節點、若幹內部節點和若幹葉節點。決策樹的決策過程需要從決策樹的根節點開始,待測數據與決策樹中的特征節點進行比較,並按照比較結果選擇選擇下壹比較分支,直到葉子節點作為最終的決策結果。

簡而言之,決策樹是壹個利用樹的模型進行決策的多分類模型

為了找到最優的劃分特征,我們需要先了解壹些信息論的知識:

純度

妳可以把決策樹的構造過程理解成為尋找純凈劃分的過程。數學上,我們可以用純度來表示,純度換壹種方式來解釋就是讓目標變量的分歧最小

信息熵 :表示信息的不確定度

在信息論中,隨機離散事件出現的概率存在著不確定性。為了衡量這種信息的不確定性,信息學之父香農引入了信息熵的概念.

當不確定性越大時,它所包含的信息量也就越大,信息熵也就越高

信息熵越大,純度越低。當集合中的所有樣本均勻混合時,信息熵最大,純度最低

經典的 “不純度”的指標有三種,分別是信息增益(ID3 算法)、信息增益率(C4.5 算法)以及基尼指數(Cart 算法)

信息增益

信息增益指的就是劃分可以帶來純度的提高,信息熵的下降。它的計算公式,是父親節點的信息熵減去所有子節點的信息熵。

信息增益率

信息增益率 = 信息增益 / 屬性熵

基尼指數

基尼指數(基尼不純度):表示在樣本集合中壹個隨機選中的樣本被分錯的概率。

即 基尼指數(基尼不純度)= 樣本被選中的概率 * 樣本被分錯的概率

基尼系數的性質與信息熵壹樣:度量隨機變量的不確定度的大小;

G 越大,數據的不確定性越高;

G 越小,數據的不確定性越低;

G = 0,數據集中的所有樣本都是同壹類別

詳細參考: 機器學習——基尼指數

ID3 算法是建立在奧卡姆剃刀(用較少的東西,同樣可以做好事情)的基礎上:越是小型的決策樹越優於大的決策樹

ID3算法的核心是在決策樹各個節點上根據信息增益來選擇進行劃分的特征,然後遞歸地構建決策樹。算法采用自頂向下的貪婪搜索遍歷可能的決策樹空間。

具體方法

ID3的局限

C4.5與ID3相似,但大的特點是克服了 ID3 對特征數目的偏重這壹缺點,引入信息增益率來作為分類標準。

C4.5的實現基於ID3的改進

信息增益率對可取值較少的特征有所偏好(分母越小,整體越大),因此 C4.5 並不是直接用增益率最大的特征進行劃分,而是使用壹個 啟發式方法 :先從候選劃分特征中找到信息增益高於平均值的特征,再從中選擇增益率最高的。

C4.5的局限

ID3 和 C4.5 生成的決策樹分支、規模都比較大,CART 算法的二分法可以簡化決策樹的規模,提高生成決策樹的效率。

CART(classificationandregressiontree),分類回歸樹算法,既可用於分類也可用於回歸,在這壹部分我們先主要將其分類樹的生成。區別於ID3和C4.5,CART假設決策樹是二叉樹,內部節點特征的取值為“是”和“否”,左分支為取值為“是”的分支,右分支為取值為”否“的分支。這樣的決策樹等價於遞歸地二分每個特征,將輸入空間(即特征空間)劃分為有限個單元。

CART的分類樹用基尼指數來選擇最優特征的最優劃分點,具體過程如下

剪枝就是給決策樹瘦身,這壹步想實現的目標就是,不需要太多的判斷,同樣可以得到不錯的結果。之所以這麽做,是為了防止“過擬合”(Overfitting)現象的發生。

過擬合:指的是模型的訓練結果“太好了”,以至於在實際應用的過程中,會存在“死板”的情況,導致分類錯誤。

欠擬合:指的是模型的訓練結果不理想.

剪枝的方法

參考: 機器學習決策樹(上)——ID3、C4.5、CART(非常詳細)

更多模型不斷更新中。。。。

  • 上一篇:經濟類考研 ,哪個專業考研比較好?又有哪些大學比較容易考上,但學校不能太差?
  • 下一篇:開音樂餐吧需要什麽證件
  • copyright 2024法律諮詢服務網