活學活用決策樹(三):運用SAS EM決策樹進行CHAID及CART分析

0
決策樹結果重在商業邏輯的解釋
決策樹不似其他預測模型方法,依照每一觀察者的不同的特徵屬性值,計算出各自的發生機率值,它則是某一區間內的特徵屬性給定一個分數,歸屬在同一條預測規則下的觀測點,都會給定同一個值,發生機率都會判定相同,所以會有一定的誤差值。也就造成決策樹的準確度雖然不是最佳,但由於其容易表達、方便解讀,對於入門data mining的初階miner,賽博士卻是大大推薦決策樹一定要好好學習。模型的準確度在初學時,常會被我們認為是分析結果的重點。事實上,模型結果具有商業解釋性才更勝於一切,模型看似準確高,但產出的模型結果卻是分析人員或產業專家無法解釋,其實就等於是無用的模型。而模型準確度也可透過資料的處理或重要衍生變數的投入,提升模型的準度。準度也必需要禁得起時間的考驗,也就是每定期的模型驗證,來確定模型的穩定性。過度配適(model over-fitting)也可能造成一時的模型預測正確率很高,但幾期的時間觀察下來,卻發現模型越來越失準。(模型評估的方法,我們可以另闢一期來特別說明)。

 
SAS EM決策樹混合各種決策樹演算方法
我們常聽到的決策樹演算方法有:ID3、CHID、CART、C4.5、C5等方法,SAS EM的決策樹模型分析方法則混合了上述所提各種的決策樹演算法,在單一決策樹分析節點裡就可以連結各種決策樹處理演算法,分析者只需將欲輸入的資料集的資料型態設定好,在SAS EM決策樹分析節點的分割規則(Splitting Rule)的各項參數,進行適當調整,即可選擇想要的演算方法進行預測模型建置。
 
表一、決策樹演算法之比較
演算法
作者
資料屬性
分割規則
修剪樹規則
ID3
Quinlan(1979)
離散型資料
Entropy、
Gain Ratio
Predicted Error Rate
C4.5
Quinlan(1993)
離散型資料
Gain Ratio
Predicted Error Rate
CHAID
Kass(1980)
離散型資料
Chi-Square Test
No Pruning
CART
Briemen(1984)
離散與
連續型資料
Gini Index
Entire Error Rate
運用SAS EM決策樹產生CART分析
 
CART (Classification and Regression Trees)演算方法是以每個節點的動態臨界值作為條件判斷式,藉由單一輸入的變數函數,在每個節點分隔資料,並建立一個二元決策樹,CART是使用 Gini Ratio來衡量指標,如果分散的指標程度很高,表示資料中分佈許多類別,相反的,如果指標程度越低,則代表單一類別的成員居多。C4.5 與CART 建構過程非常類似,兩者之間最大不同就在於節點分支的數目,C4.5 會在每一個節點產生不同數目分支,分支數目會決定於行為變項中類別的個數。而CART 只會在每一個節點產生兩個分支。C4.5 是較新出現的決策樹演算法,它的前身即為ID3。
 
在SAS EM決策樹裡產生CART分析,必須進行以下參數調整:
決策樹3-2
 
運用SAS EM決策樹產生CHAID分析
 CHAID (Chi-Square Automatic Interaction Detector)演算法為利用卡方分析(Chi-Square Test)預測二個變數是否需要合併,如能夠產生最大的類別差異的預測變數,將成為節點的分隔變數。透過計算節點中類別的 P值 (P-Value),以P值大小來決定決策樹是否繼續生長,所以不需像C4.5或CART要再做決策樹修剪的動作。CHAID 與CART、C4.5 之差異在於,CHAID只限於處理類別變數,如連續變數必須採用區段的方式,轉換成類別變數。另一差異部分在於修剪的部分,CART、C4.5 是先過度套用資料訓練,之後再修剪。但CHAID 則是在過度套用之前即停止支點蔓生擴大。
 
決策樹3-3
  

 

Tags
Share

About Author

SAS Taiwan

Comments are closed.

Back to Top