活學活用決策樹(三):運用SAS EM決策樹進行CHAID及CART分析
決策樹結果重在商業邏輯的解釋 決策樹不似其他預測模型方法,依照每一觀察者的不同的特徵屬性值,計算出各自的發生機率值,它則是某一區間內的特徵屬性給定一個分數,歸屬在同一條預測規則下的觀測點,都會給定同一個值,發生機率都會判定相同,所以會有一定的誤差值。也就造成決策樹的準確度雖然不是最佳,但由於其容易表達、方便解讀,對於入門data mining的初階miner,賽博士卻是大大推薦決策樹一定要好好學習。模型的準確度在初學時,常會被我們認為是分析結果的重點。事實上,模型結果具有商業解釋性才更勝於一切,模型看似準確高,但產出的模型結果卻是分析人員或產業專家無法解釋,其實就等於是無用的模型。而模型準確度也可透過資料的處理或重要衍生變數的投入,提升模型的準度。準度也必需要禁得起時間的考驗,也就是每定期的模型驗證,來確定模型的穩定性。過度配適(model over-fitting)也可能造成一時的模型預測正確率很高,但幾期的時間觀察下來,卻發現模型越來越失準。(模型評估的方法,我們可以另闢一期來特別說明)。