活學活用決策樹(六): 如何運用SAS EM決策樹產生系統最佳與專家調整的混合模型(2)

0
上期介紹一SAS EM決策樹互動式建模(Interactive mode),這期接續介紹如何利用決策樹自動建模環境(Automatic mode)產生系統最佳模型。Dr.SAS則建議初階資料探勘分析人員在建立決策樹預測模型時,先從互動式決策樹開始分析,分析者可透過一層層決策樹的開展與預測規則的解釋,了解投入變數間的先後重要解釋關係,嘗試選擇較具業務代表性的解釋變數,並可透過解讀預測規則的合理性,來檢視資料的品質。

 
自動建模環境(Automatic mode)
進行EM決策樹系統自動建模,分析者不需要像在互動式環境下,一層層進行變數挑選與分支切割,只需在決策樹分析節點進行參數設定調整,或直接選用系統預設參數設定(EM參數的預設值為考量理論基礎或實務經驗值),直接執行分析。
EM決策樹自動化建模程序:
❶拖曳SAS EM決策樹分析節點,連結欲分析的資料集
❷調整參數選項設定
決策樹參數設定主要分為三個部份的選項調整:決策樹大小、變數重要性選擇、修枝方法。
(1)決策樹大小
Maximum Branch—預設值為2。EM決策樹預設產出二元分支的預測模型,此為建議值。因為所有多元分支的模型均可用二元分支來表示,且多元分支容易造出一個矮胖的決策樹,預測規則不深,準度也通常較低。分析者若想要產生多元分支的決策樹,Dr.SAS建議最高不要設超過3,EM 7版本以後,當分析者若考量產生三元分支的決策樹,系統會依各分支統計檢定的結果,若該分支切為三分支的統計檢定顯著效果比二元分支要好的話,EM會選擇採用三元分支的結果,反之,若該變數最適結果為二元分支,則會採用二元分支的切點結果,因此,整體模型會產出最多為三元分支的混合樹,SAS EM決策樹此一功能,則更考量實務的應用。
Maximum Depth—決策樹的深度設定,預設值為6。Dr.SAS建議Maximum Depth值不超過6層,決策樹超過6層以上,通常會有過度配適(over-fitting)的現象。
Leaf size— 樹葉內的觀測值個數,預設值為5。基於卡方檢定的要求,每一個葉子內的觀測值數至少要超過5個以上,才能進行檢定分析。Dr.SAS則建議若是應用於行銷名單的篩選,此一預設值建議依業務需求往上調整。
 
(2)變數重要性選擇
Splitting Criterion—EM決策樹會自動依據變數的資料型態,選取最適變數切割搜尋分法,連續變數預設為F檢定p值、類別變數預設為卡方檢定p值、順序尺度變數預設方法則為熵(entropy)。
Significance Level—變數顯著性p值,預設值為0.2。若決策樹長的過大,可將顯著水準調小一點,可達自動修枝的功能。
 
5
(3)修枝方法
      Subtree Method—修枝方法,當欲啟動EM自動修枝功能時,該參數設定要調整為Assessment,同時分析者可選擇修枝考量的評估統計量(Assessment Meaure):Average Square Error/Misfication/Lift值。
 
6
 
❸模型結果與報表產出
點選EM決策樹模型結果View>Model>Subtree Assemssment Plot,檢視自動化模式下最適模型產出結果。下圖為SAS EM決策樹子樹評估圖(Subtree Assemssment Plot),圖中藍色曲線表示訓練資料集的模型結果,訓練模型會找到配適最佳的模型,直到評估統計量(ASE)不再下降為止,因此訓練模形容易有過度配適的現象。紅色曲線表示驗證資料在各模型階段的結果,圖型結果顯示驗證資料的模型第11條預測規則以後準度不減反增。 圖中垂直的藍線說明EM決策樹的已啟動自動修枝功能,修枝後的最適模型為產出11條預測規則之模型。
 
 7
 圖三:子樹評估圖(Subtree Assessment Plot)
 
EM決策樹自動建模環境,系統已透過分析者設定的參數,進行最適模型的產出,在自動化模式裡,無法如互動式模式,直接點選決策樹圖形進行修枝。因此,分析者若想以系統最適化的模型結果為基礎,再由專家半人工進行部分樹節點的調整,則就要再回到互動式模式。執行完自動化決策樹模型的結果,再啟動Interactive mode,SAS EM已將系統最適模型結果複製至互動式平台裡,因此,分析者可在互動式平台裡將系統產出的最適模型再做專家調整,讓分析者可以產出一個系統最適與專家經驗混合的實務應用模型。
兩種分析模式環境各自有其分析使用上的優點,EM 7版本以後,將兩個建模環境模式做了整合,讓建模分析人員可以針對系統最適推薦模型,進行專家調整,提供給分析者更佳彈性與實務考量的建模平台。 
 
表一、互動式建模與自動建模功能比較表
 
互動式建模
自動建模
遺失值處理
預設歸到最大分支裡
可將遺失值歸至最有相關分支
修枝
可專家調整,但較耗時
系統自動修枝
切點調整
可依業務經驗值進行調整
需回動互動式模式
變數順序
可依業務經驗進行調整
需回動互動式模式
Tags
Share

About Author

SAS Taiwan

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

Comments are closed.

Back to Top