經過前面幾篇的學習,想必大家對於EM已經相當熟悉了!
接下來我們根據前面的資料,繼續教導一些資料探勘方法(決策樹與迴歸),讓你更加瞭解如何建立模型。
◆ 決策樹 (找出可區分客戶是否可升級的重要變數及條件)
點選工具調色盤【模型】→將【決策樹】拖曳至【流程圖】→將變數選取與決策樹【路徑相連】→參數設定【最大深度】改為【3】。
右鍵【變數選取】→【執行】→執行此路徑【是】→執行完成【結果】。
即決策樹結果如下:
從這棵樹可看出,客戶的本行產品數、普卡額度及跟本行往來時間就足以區分出此客戶是否可升等。
另外,可看出本行產品數不多不少、普卡額度>=30.5萬且於本行往來時間>=102個月的客戶可升等。
◆ 自訂決策樹 (若有背景知識,可依照背景知識自訂樹的樣子)
點選工具調色盤【模型】→將【決策樹】拖曳至【流程圖】→將變數選取與決策樹(2)【路徑相連】→參數設定【互動式】【…】。
點選工具列→【編輯】→【節點統計】→勾選【每一個目標層級的觀測數目】→【確定】→右鍵【樹檢視】→【分割節點】→【G_pro_num】→【確定】。
【樹檢視】按右鍵→【分割節點】→【percent】→【確定】。
【樹檢視】按右鍵→【分割節點】→【percent】→【確定】。
參數設定【使用凍結樹】改為【是】→右鍵【決策樹(2)】→【執行】→執行此路徑【是】→執行完成【結果】。
即自訂決策樹結果如下:
從這棵樹可看出,客戶的本行產品數及普卡額度就可區分出此客戶是否可升等。
另外,可看出本行產品數不多不少且普卡額度>=30.5萬的客戶可升等。
◆ 建立迴歸模型 (找出可區分客戶是否可升級的重要變數及條件以外,還能判斷變數的重要性)
點選工具調色盤【模型】→將【迴歸】拖曳至【流程圖】→將變數選取與迴歸【路徑相連】→右鍵【迴歸】→【執行】。
執行此路徑【是】→執行完成【結果】。
從此羅吉斯迴歸中可知,在本行有3個產品數的客戶會升等的機會是有4個產品數的客戶的56.348倍。
另外,在本行中普卡額度上升一單位(萬元),則升等的勝算會增加15%。
◎ 模型比較與預測
前面建立三個模型後,要找出最佳模型,再使用最佳模型預測未來客戶:
● 模型比較-比較前面得到的決策樹、自訂決策樹及迴歸,選出最佳模型
● 預測未來資料-馬上使用最佳模型判斷未來資料中的834位客戶是否可升等白金卡
將剛才建立的決策樹、自訂決策樹及迴歸等模型進行比較
點選工具調色盤【評估】→將【模型比較】拖曳至【流程圖】→將決策樹、決策樹(2)、迴歸與模型比較路徑相連。
右鍵【模型比較】→【執行】→執行此路徑【是】→執行完成【結果】→確認參數設定【選取準則】【有效:錯誤分類比率】
前面有看到,參數設定面板中,選取最佳模型的依據是驗證樣本的錯誤分類比率。
依照驗證樣本的錯誤分類比率,選出的最佳模型為決策樹。
比較不同模型時,也可查看ROC曲線,曲線越接近左上角,表示模式越好。
所以此例中的表現情況,決策樹較其它模式好。
◎ 預測
前面已找出最佳模型為決策樹,接著使用決策樹預測下一期想升級白金卡的客戶,是否可升級。所以需匯入未來資料,再進行預測
將【CREDITCARD_SCORE】資料集→拖曳至【流程圖】。
點選工具調色盤【評估】→將【評分】拖曳至【流程圖】→將模型比較、CREDITCARD_SCORE與評分【路徑相連】。
右鍵【評分】→【執行】→執行此路徑【是】→執行完成【結果】。
確認參數設定【匯出的資料】【…】→點選【SCORE】→【瀏覽】
即預測結果如下:
從此資料可知每個客戶是否可升等白金卡(1為可升等、0為不可升等)。
◎結論
普卡升等白金卡的主要條件?
這期申請客戶,馬上判斷是否可升等白金卡?
● 從3個模型中的最佳模型-決策樹,可知普卡升等白金卡的主要條件為:
-
本行產品數的分組:1~2為0、3為1、4為2、5為3、6~14為4
-
普卡額度
-
與本行往來時間
● 從前面預測所得匯出的資料可知:
-
客戶編號為09997903可升等白金卡
-
客戶編號為09997905可升等白金卡
Tags