延續上篇介紹,在現實中想要建構出必須經過抽樣、分割樣本、補遺失值...等資料準備的程序,才能建構出好的模型。
◎ 資料準備
使用過去資料(creditcard.sas7bdat)建立模型以前,若目標特徵明顯時,用大量與用較小的資料建模,結果會一致,因此可先抽樣,再觀察樣本的變數特性。
接著將樣本分為訓練及驗證樣本,然後將收入與其它收入中遺失值的部分進行補值的動作,最後再找出對於客戶是否升級有較高關係的重要變數:
所以可使用EM中的哪些節點(Node)來完成上述任務呢?
資料準備5步驟
Step 1. 抽取樣本-目標特徵明顯時,使用1億筆資料跟使用1萬筆資料,結果會一致,所以不須使用這麼龐大的資料來建模
Step 2. 觀察變數特性-拿到資料時,要先了解變數的特性,如:類別變數的各類人數、數值變數的平均數、標準差,及遺失值情況
Step 3. 資料分割-建模需將資料分為訓練與驗證,訓練樣本拿去建模,驗證樣本則拿來檢驗模型是否有過度配適問題
Step 4. 補遺失值-資料中經常有遺失值,若將這些樣本都刪除,則會損失許多資訊,所以要對遺失值進行補值的動作
Step 5. 選取重要變數-若沒有背景知識知道哪些變數對目標會有影響,則可使用此Node幫助您挑選重要變數
資料準備-抽取樣本
雙擊左側【Workshop】→點選工具調色盤【樣本】→將【樣本】拖曳至【流程圖】→將Creditcard與樣本路徑相連→參數設定【準則】選【以層級為基礎】。
【樣本】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。
原始資料可升等的客戶占18.5%;抽出的樣本資料,可升等的客戶占50%。
資料準備-變數特性
點選工具調色盤【勘查】→將【StatExplore】拖曳至【流程圖】→將樣本與StatExplore路徑相連→參數設定【變數】選【…】。
按ctrl選取要看的變數→【勘查】→變更【抽樣方法】與【提取大小】→【套用】
在申請信用卡時,客戶都不願意填寫月收入及其它月收入,所以此兩個變數的遺失值較多,後續會對這兩個變數進行補值的動作。
點選【確定】→【StatExplore】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。
從此結果中可看到,本行產品數、普卡額度、年資…等變數,對於客戶是否升等有較大影響。
資料準備-資料分割
點選工具調色盤【樣本】→將【資料分區】拖曳至【流程圖】→將StatExplore與資料分區路徑相連→參數設定【訓練】改為【70.0】→【測試】改為【0.0】。
【資料分區】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。
即資料分割結果如下:
將70%的樣本切割為訓練資料;30%為驗證資料。在兩資料中有升級及未升等的客戶各占一半。
資料準備-補遺失值
點選工具調色盤【修改】→將【設算】拖曳至【流程圖】→將資料分區與設算路徑相連→參數設定【預設輸入方法】改為【無】→點選【變數】的【…】。
按ctrl選取要看的變數→【確定】→【設算】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。
即補遺失值結果如下:
在此,雖然選取其它月收入進行補值的動作,但是由於此變數中的遺失值超過50%以上,資訊過少,所以並未進行補值。
而月收入有進行補值,並且將補完的變數命名為IMP_income
資料準備-重要變數
點選工具調色盤【勘查】→將【變數選取】拖曳至【流程圖】→將設算與變數選取路徑相連。
【變數選取】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。
即重要變數結果如下:
使用R2的值計算每個變數對客戶是否升等的影響,可得到本行產品數、普卡額度、與本行往來時間…等變數對是否升等有較大影響。另外根據變數重要性,決定後面的模型當中要放入哪些變數。
資料都已經準備好了,現在馬上來體驗EM強大建模功能吧!
下一篇我們將以決策樹與迴歸模型讓操作~
Tags