○ 某銀行過去在決定普卡客戶是否能升等白金卡時,總是請專員針對申請客戶的條件一一核對,判斷客戶是否可從普卡升等白金卡,但是這樣的方法:
● 浪費人力
● 缺乏效率
○ 於是,某銀行決定導入SAS Enterprise Miner希望能使用資料探勘的方法,從過去大量資料中:
● 找出升等白金卡的主要條件
● 之後客戶申請時,能夠快速決定此客戶是否能升等白金卡
你該怎麼來使用SAS EM來完成主管要求的任務呢?
沒關係,現在就依照以下流程,讓您體驗快速建模及預測:
以下為我們會使用到的資料說明(下載範例檔)※檔案有點大,請耐心等候
過去資料_檔名:creditcard.sas7bdat觀測值個數:4050590
未來資料_檔名:creditcard_score.sas7bdat觀測值個數:834
◎ 環境設定
使用 EM 前,需先決定專案存檔位置、資料位置並創造流程圖,所以先進行以下環境設定3步驟:
Step 1. 建立專案
Step 2. 設置資料館
Step 3. 創造流程圖
建立專案(新增專案)
開啟SAS EM,選取【新增專案】→專案名稱取【EM Workshop】→【瀏覽】→選擇儲存位置【C:\】→【開啟】
點選【下一步】→【完成】即完成新增專案。之後即可於儲存位置【C:\】底下找到EM Workshop資料夾。
建立資料館
點選工具列【檔案】→【新增】→【資料館】→點選【建立新的資料館】→【下一步】
命名【EM】→點選【瀏覽】→找到存放SAS資料集(Data)的資料夾【Data-EMw】→【開啟】→【下一步】→【完成】
建立流程圖
左上方【流程圖】按右鍵→【建立流程圖】→命名【Workshop】→【確定】→確認右方已出現名為Workshop流程圖
◎資料匯入- 資料說明
後續要使用過去資料(creditcard.sas7bdat) 建立模型,再使用最佳模型預測未來資料(creditcard_score.sas7bdat),所以先將此兩個資料匯入EM中。
另外,體驗快速建模與預測時要使用建模資料 (creditcard_train.sas7bdat 與 creditcard_validate.sas7bdat) 建立模型,再使用最佳模型預測上述未來資料 (creditcard_score.sas7bdat),所以亦先將該建模資料匯入EM中。
匯入(Creditcard) SAS資料集
對【資料來源】點選右鍵→【建立資料來源】→【下一步】→【瀏覽】→找到剛建立的SAS資料館【EM】→選擇要匯入的SAS資料集【Creditcard】→【確定】
點選【下一步】→【下一步】
【下一步】→勾選【標籤】→更改變數【角色】及【層級】→【計算摘要】
是否計算摘要【是】→【下一步】
【下一步】→【下一步】→【下一步】→【完成】。
完成後在資料來源即呈現【CREDITCARD】資料集
將【CREDITCARD】資料集拖曳至【流程圖】
匯入(Creditcard_score) SAS資料集
對【資料來源】點選右鍵→【建立資料來源】→【下一步】→【瀏覽】→找到SAS資料館【EM】→【Creditcard_score】→【確定】
點選【下一步】→【下一步】
【下一步】→勾選【標籤】→更改變數【角色】及【層級】→【計算摘要】
是否計算摘要【是】→【下一步】
【下一步】→將角色改為【評分】→【下一步】→【完成】→在資料來源即呈現【CREDITCARD_SCORE】資料集
匯入(creditcard_train) SAS資料集
【資料來源】按右鍵→【建立資料來源】→【下一步】→【瀏覽】→SAS資料館【Em】→【creditcard_train】→【確定】
點選【下一步】→【下一步】
點選【進階】→【下一步】→更改變數【角色】→【重新整理摘要】→【是】→【下一步】
【下一步】到第8步→角色改為【訓練】→【下一步】
【完成】後在資料來源即呈現【creditcard_train】資料集
匯入(creditcard_validate) SAS資料集
【資料來源】按右鍵→【建立資料來源】→【下一步】→【瀏覽】→ SAS資料館【EM】→【creditcard_validate】→【確定】
點選【下一步】→【下一步】
點選【進階】→【下一步】→更改變數【角色】→【重新整理摘要】→【是】→【下一步】
【下一步】到第8步→角色改為【驗證】→【下一步】
完成後在資料來源即呈現【creditcard_validate】資料集
已經將所需資料匯入好了!開始體驗快速建模及預測吧!
左上方【流程圖】按右鍵→【建立流程圖】→命名【Model】→【確定】→確認已出現名為Model流程圖
將資料集creditcard_train與creditcard_validate拖曳至流程圖【Model】中。
點選工具調色盤【模型】→將【決策樹】拖曳至【流程圖】→將creditcard_train、creditcard_validate與決策樹路徑相連→將左側參數設定【最大深度】改為【3】。
點選工具調色盤【模型】→將【迴歸】拖曳至【流程圖】→將creditcard_train、creditcard_validate與迴歸路徑相連。
點選工具調色盤【評估】→將【模型比較】拖曳至【流程圖】→將決策樹、迴歸與模型比較路徑相連
點選工具調色盤【評估】→將【評分】拖曳至【流程圖】→將模型比較與評分路徑相連。
將【Creditcard_score】資料集拖曳至【流程圖】→將Creditcard_score與評分路徑相連→【評分】按右鍵→【執行】→執行此路徑【是】→執行完成【確定】。
模型比較結果如下:
【模型比較】按右鍵→【結果】
前面有看到,參數設定面板中,選取最佳模型的依據是驗證樣本的錯誤分類比率。
依照驗證樣本的錯誤分類比率,選出的最佳模型為決策樹。
比較不同模型時,也可查看ROC曲線,曲線越接近左上角,表示模式越好。
所以此例中的表現情況,決策樹較迴歸模式好。
【決策樹】按右鍵→【結果】
從這棵樹可看出,客戶的本行產品數、普卡額度及跟本行往來時間就足以區分出此客戶是否可升等。
另外,可看出本行產品數不多不少、普卡額度>=30.5萬且於本行往來時間>=102個月的客戶可升等。
經過剛才的體驗,您是否覺得使用EM建模及預測非常便捷、快速呢?
但是,平常建模並沒有想像中簡單,必須經過抽樣、分割樣本、補遺失值…等資料準備的程序,才能建構出好的模型。
所以若想學習實際建模方法,繼續往下點選學習去!
Tags