Transform Variables node變數轉換的案例情境說明
變數轉換的資料處理,若資料有遺漏,建議先透過 Impute node 處理缺失值問題,再進行變數轉換的資料處理程序。
1. 準備群集分析資料集
啟動 SAS EM 並新增一 EM 專案檔,點選主選單 HELP 下的 Generate Sample Data Source 產生樣本資料集:SAMPSIO.HMEQ。
2. 資料檢視與相關處理
檢視資料品質應在任何資料處理程序之前,資料處理的次序建議可掌握「由大而小、整體資料到單一資料處理」的原則,如先進行整體資料的過濾-->資料欄位的遺失值處理-->個別變數的轉換或衍生變數的生成。
此外,EM的相關的資料處理節點都還會再個別針對缺漏值問題提供對應的檢測及處理方法。
在正式進行資料處或分析之前,應對分析資料HMEQ進行資料品質瀏覽,點選分析資料集下的「Variables」參數選項,EM會快速產生欲瀏覽變數的分布圖,各資料變數有遺失值時,分布圖會以灰色長條圖獨立顯示其比例。
若資料有遺漏情形,建議先透過Impute node處理缺失值問題,再進行變數轉換的資料處理程序。
3. 進行簡單函數轉換(案例情境)
step1. 點選參數列內的「Variables」選項,進行變數的簡單函數轉換
圖一、Transform Variables node參數列
step2. 各變數點選「Explore...」進行變數瀏覽,檢視資料分布,並選擇適當的資料處理或函數轉換方法。
圖二、Transform Variables node- Variables轉換方法設定介面
(1)變數IMP_CLAGE採用「Bucket全距等分分箱法」,點選參數列的「Exported Data」檢視轉置後結果如下圖,Bucket分箱結果會顯示各分箱切點的上下限值,預設分為四個等分分箱結果。
圖三、Bucket全距等分分箱法執行結果
(2) IMP_Job為類別資料採用「Group Rare Level」,選擇此法時,會自動將稀有事件水準值設為'_OTHER_',如圖示,變數Impute_Job內Self'為次數頻率最低的水準值,透過Group rare levels轉換後,其值設為_OTHER_。點選參數列的「Exported Data」檢視轉置後結果:
圖四、Group Rare Level法執行結果
(3) IMP_REASON為類別資料採用「Dummy Indicator」,選擇此法時,會自動產出變數內的各個類別水準值的虛擬變數,如下圖,變數IMP_REASON,類別水準值有二類,分別為'DebtCon'、'HomeImp',透過Dummy Indicators轉換後,會分別產生IMP_REASON_DebtCon、IMP_REASON_HomeImp其值為(0,1)的虛擬變數。點選參數列的「Exported Data」檢視轉置後結果:
圖五、Dummy Indicator法執行結果
(4) IMP_REASON採用「Option Binning最適分箱法」,選擇此法時,系統會自動對分析變數切出最適級距,使轉換變數與目標變數的相關性最高。同時可進階調整 Optional Binning 參數選項以設定其級距數。點選參數列的「Exported Data」檢視轉置後結果:
圖六、Option Binning最適分箱法執行結果
step3. 檢視變數轉換執行結果,點選「Result」。透過Transform Variables node進行變數轉換後,EM會新增轉換變數欄位,變數名稱的命名方式會在轉換前的變數名稱前,再冠上轉換方法。如變數OPT_VALUE,即是變數VALUE選擇「Option Binning」的方法進行變數轉換方法。
圖七、Transform Variables node執行結果
Tags