SAS EM實戰演練-【系列3-2】輕鬆建好信用卡升等模型(實際建模資料準備)

延續上篇介紹，在現實中想要建構出必須經過抽樣、分割樣本、補遺失值...等資料準備的程序，才能建構出好的模型。

◎ 資料準備

使用過去資料(creditcard.sas7bdat)建立模型以前，若目標特徵明顯時，用大量與用較小的資料建模，結果會一致，因此可先抽樣，再觀察樣本的變數特性。

接著將樣本分為訓練及驗證樣本，然後將收入與其它收入中遺失值的部分進行補值的動作，最後再找出對於客戶是否升級有較高關係的重要變數：

所以可使用EM中的哪些節點(Node)來完成上述任務呢？

資料準備5步驟

Step 1. 抽取樣本-目標特徵明顯時，使用1億筆資料跟使用1萬筆資料，結果會一致，所以不須使用這麼龐大的資料來建模

Step 2. 觀察變數特性-拿到資料時，要先了解變數的特性，如：類別變數的各類人數、數值變數的平均數、標準差，及遺失值情況

Step 3. 資料分割-建模需將資料分為訓練與驗證，訓練樣本拿去建模，驗證樣本則拿來檢驗模型是否有過度配適問題

Step 4. 補遺失值-資料中經常有遺失值，若將這些樣本都刪除，則會損失許多資訊，所以要對遺失值進行補值的動作

Step 5. 選取重要變數-若沒有背景知識知道哪些變數對目標會有影響，則可使用此Node幫助您挑選重要變數

資料準備-抽取樣本

雙擊左側【Workshop】→點選工具調色盤【樣本】→將【樣本】拖曳至【流程圖】→將Creditcard與樣本路徑相連→參數設定【準則】選【以層級為基礎】。

【樣本】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。

原始資料可升等的客戶占18.5%；抽出的樣本資料，可升等的客戶占50%。

資料準備-變數特性

點選工具調色盤【勘查】→將【StatExplore】拖曳至【流程圖】→將樣本與StatExplore路徑相連→參數設定【變數】選【…】。

按ctrl選取要看的變數→【勘查】→變更【抽樣方法】與【提取大小】→【套用】

在申請信用卡時，客戶都不願意填寫月收入及其它月收入，所以此兩個變數的遺失值較多，後續會對這兩個變數進行補值的動作。

點選【確定】→【StatExplore】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。

從此結果中可看到，本行產品數、普卡額度、年資…等變數，對於客戶是否升等有較大影響。

資料準備-資料分割

點選工具調色盤【樣本】→將【資料分區】拖曳至【流程圖】→將StatExplore與資料分區路徑相連→參數設定【訓練】改為【70.0】→【測試】改為【0.0】。

【資料分區】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。

即資料分割結果如下：

將70%的樣本切割為訓練資料；30%為驗證資料。在兩資料中有升級及未升等的客戶各占一半。

資料準備-補遺失值

點選工具調色盤【修改】→將【設算】拖曳至【流程圖】→將資料分區與設算路徑相連→參數設定【預設輸入方法】改為【無】→點選【變數】的【…】。

按ctrl選取要看的變數→【確定】→【設算】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。

即補遺失值結果如下：

在此，雖然選取其它月收入進行補值的動作，但是由於此變數中的遺失值超過50%以上，資訊過少，所以並未進行補值。

而月收入有進行補值，並且將補完的變數命名為IMP_income

資料準備-重要變數

點選工具調色盤【勘查】→將【變數選取】拖曳至【流程圖】→將設算與變數選取路徑相連。

【變數選取】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。

即重要變數結果如下：

使用R2的值計算每個變數對客戶是否升等的影響，可得到本行產品數、普卡額度、與本行往來時間…等變數對是否升等有較大影響。另外根據變數重要性，決定後面的模型當中要放入哪些變數。

資料都已經準備好了，現在馬上來體驗EM強大建模功能吧！

下一篇我們將以決策樹與迴歸模型讓操作~

Blogs