Transform Variables node變數轉換的案例情境說明
延續『如何運用SAS EM進行變數處理與衍生變數產生(中)』文章說明
4. 利用「Formula衍生變數編輯區」進行衍生變數處理
【情境說明】
-產生衍生變數公式編輯計算逾期週期
-運用SAS 運算函數進行變數轉換
step1. 點選參數列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。
圖一、Transform Variables Node參數列
step2. 點選「Formula衍生變數編輯區」視窗左上列的 (新增衍生變數鈕) 列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。
圖二、Formula衍生變數編輯區
step3. 點選「Build...」進入「Expression Builder」衍生變數公式編輯區。除了簡單的四則運算式編輯外,在編輯區下方提供各類運算函式,以利分析者進行進階演算式產出。
位於函數區旁的另一個頁籤,則完整列出原始資料集的變數清單,分析者無須記憶變數名稱,可透過點選拖曳方式將進階處理的變數投放入編輯區。
圖三、Formula衍生變數編輯區--新增變數
step4. 產生衍生變數一:「Delinq_Freq逾期週期」,衍生變數公式:IMP_CLAGE(貸款往來期間)/IMP_DELINQ (逾期次數)。
從「Variables List原始變數列表區」選取變數IMP_CLAGE及IMP_DELINQ,點選「Insert」將欲處理之變數置放於衍生變數公式編輯區進行上述公式編輯。
圖四、Formula衍生變數編輯區--變數公式編輯與變數命名
step5. 點選「OK」,完成衍生變數新增。
step6. 產生衍生變數二:「LOG_YOJ工作年資對數化」,衍生變數公式:LOG (IMP_YOJ)。
重複Step2、Step3 進行衍生變數新增程序,從「Functions函數區」選取 Log 函數進行 IMP_YOJ 的變數轉換。
圖五、Formula衍生變數編輯區--變數公式編輯與變數命名
step7. 點選「OK」,並將變數命名為「LOG_YOJ」完成變數新增。
step8. 檢視衍生變數的資料分布。
如下圖,在「Formula」視窗裡,可同時檢視變數轉換前與轉換後的結果,轉換前 YOJ 變數呈一極右偏分布,LOG函數轉換後,新變數分布較為常態。
讀者或許會問,變數若要進行簡單函數轉換,為何不直接點選「Variables」直接進行函數轉換? 此處在「Formula」展示的目的是讓分析者可以直接在此視窗內,直接檢視轉換前後的結果,決定是否為最佳的轉換處理方法。因此,分析者可彈性選擇其中一種方式。
圖六、Formula衍生變數編輯區--轉換前後變數資料分布展示
5. 利用SAS程式編輯區進行衍生變數處理(案例情境)
【情境說明】
-利用SAS程式編輯區將申貸次數級距化
step1. 點選參數列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。
圖七、Transform Variables Node參數列--SAS Code編輯區
step2. 點選參數列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。
圖八、SAS程式編輯區
step3. 檢視衍生變數產出結果。
點選參數列的「Exported Data」檢視轉置後結果如下圖。
或者可在分析流程後再拖曳一個Transform Variables Node,此時第二個Transform Variables節點的目的用在於檢視衍生變數結果,而非進行變數處理,流程串接如下圖。
此時,再點選參數列「Variables」檢視衍生變數結果,從變數列中可看到新的衍生變數「NINQ_Bin」。
圖九、檢視新衍生變數NINQ_Bin產出結果