第一期的data mining專欄,Dr. SAS老師想要跟大家分享如何透過強大的SAS Enterprise Miner(簡稱EM)來活用決策樹演算法,來進行更多的不同的資料處理與分析。
善用決策樹方法,其實就可以產生許多豐富的模型解釋且具穩定預測力的模型結果。決策樹分析是最常使用的分類預測模型方法,它之所以會被廣泛運用的主要原因之一,就在於決策樹的結果透過樹狀圖的產生一條條的預測規則,所產生的分類規則容易用自然語言說明,所以也經常被應用在各種行銷活動分析上。
什麼是決策樹
決策樹是一種語意樹(Semantic Tree),與資料結構中的樹狀結構相仿,擁有樹根(Root)、節點(Node)以及樹葉(Leaf)等結構。而每一節點都有一個分類的判斷條件,就如「IF-THEN」的控制結構,利用判斷規則來決定資料將分類於哪一節點的哪一棵子樹(Branch),並繼續作為分類和最後的決策。
除了預測模型,SAS EM決策樹也可以…
決策樹除了熟知的拿來做各種預測模型的重要演算方法,你知道透過SAS EM也可以運用決策樹來處理橫斷面時間趨勢的資料嗎?本期將帶大家利用EM的決策樹來處理實務分析常遇到的連續時間欄位的變數,產生趨勢衍生變數。
大家在做預測模型分析時,常會撈取連續月份的自變數值,例如:存款餘額、連續月份的信用卡的消費金額、連續月份的網內或網外的通話分鐘數等。其實,開始我們是希望不要只拿這些變數的近一年平均值,當作唯一的投入變數,如近一年信用卡平均消費金額,因為實務分析時,會發現平均值無法顯示該投入變數趨勢的強弱性,如高貢獻度客戶的消費金額持續遞減,流失或剪卡的機會可能會增加;消費金額近期逐漸遞增,交叉銷售該客戶其它商品的購買意願會增加等。因此會考量投入連續月份的同一觀察變數,來了解各月份的變數值對目標變數的解釋性。然而,投放連續月份的同一自變數容易造成模型共線性的問題,且過度解釋該單一自變數。
如下資料表,分析假設開卡後的連續月份的預借現金的動用次數的趨勢狀況,可能會影響違約機率。因此我們常會撈取連續月份的單一變數來觀察。
運用EM的決策樹產生時間趨勢衍生變數
第一步、匯入分析資料,決定變數角色。
將要進行資料處理的連續月份自變數的變數角色設為Input,其他自變數則設為Reject。
第二步、進行決策樹分析,設定相關參數。
- 將Use Input Once設為Yes
讓TLCnt03、TLCnt12、TLCnt24變數在分析節點中只出現一次。
2. 將Maximum Branch調整為3
分支數調整為3,目的想要透過EM決策樹方法將動用次數依高中低做最適切等。
第三步、執行EM互動性決策樹分析,產生結果。
運用SAS EM的Interactive決策樹,進行時間趨勢分析。
每一個Leaf Node即是一條時間趨勢結果。如上圖紅框標記的Leaf Node結果說明如下:
運用EM決策樹可清楚表示時間趨勢變數的效果,相同的違約風險可能具有不同的發生行為pattern:動用激增型、波動型或高動用驟降型。將所產生的序列型態當作新的衍生變數投入預測模型,解釋效果肯定會比投放多個月分的結果好。大家試試吧!希望這期的實務分享你會覺得很受用!
Tags