如何運用SAS EM進行變數處理與衍生變數產生(下)

0

Transform Variables node變數轉換的案例情境說明

 

延續『如何運用SAS EM進行變數處理與衍生變數產生(中)』文章說明

 

4. 利用「Formula衍生變數編輯區」進行衍生變數處理

 

【情境說明】

-產生衍生變數公式編輯計算逾期週期

-運用SAS 運算函數進行變數轉換

step1.  點選參數列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。

 

a

圖一、Transform Variables Node參數列

 

step2.  點選「Formula衍生變數編輯區」視窗左上列的b (新增衍生變數鈕) 列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。

 

c

圖二、Formula衍生變數編輯區

 

step3.  點選「Build...」進入「Expression Builder」衍生變數公式編輯區。除了簡單的四則運算式編輯外,在編輯區下方提供各類運算函式,以利分析者進行進階演算式產出。

位於函數區旁的另一個頁籤,則完整列出原始資料集的變數清單,分析者無須記憶變數名稱,可透過點選拖曳方式將進階處理的變數投放入編輯區。

 

d

圖三、Formula衍生變數編輯區--新增變數

 

step4.  產生衍生變數一:「Delinq_Freq逾期週期」,衍生變數公式:IMP_CLAGE(貸款往來期間)/IMP_DELINQ (逾期次數)。

從「Variables List原始變數列表區」選取變數IMP_CLAGE及IMP_DELINQ,點選「Insert」將欲處理之變數置放於衍生變數公式編輯區進行上述公式編輯。

 

e

圖四、Formula衍生變數編輯區--變數公式編輯與變數命名

step5.  點選「OK」,完成衍生變數新增。

 

step6.  產生衍生變數二:「LOG_YOJ工作年資對數化」,衍生變數公式:LOG (IMP_YOJ)。

重複Step2、Step3 進行衍生變數新增程序,從「Functions函數區」選取 Log 函數進行 IMP_YOJ 的變數轉換。

 

f

圖五、Formula衍生變數編輯區--變數公式編輯與變數命名

step7.  點選「OK」,並將變數命名為「LOG_YOJ」完成變數新增。

 

step8.  檢視衍生變數的資料分布。

如下圖,在「Formula」視窗裡,可同時檢視變數轉換前與轉換後的結果,轉換前 YOJ 變數呈一極右偏分布,LOG函數轉換後,新變數分布較為常態。

讀者或許會問,變數若要進行簡單函數轉換,為何不直接點選「Variables」直接進行函數轉換? 此處在「Formula」展示的目的是讓分析者可以直接在此視窗內,直接檢視轉換前後的結果,決定是否為最佳的轉換處理方法。因此,分析者可彈性選擇其中一種方式。

 

g

圖六、Formula衍生變數編輯區--轉換前後變數資料分布展示

 

5. 利用SAS程式編輯區進行衍生變數處理(案例情境)

 

【情境說明】

-利用SAS程式編輯區將申貸次數級距化

 

step1. 點選參數列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。

 

h

圖七、Transform Variables Node參數列--SAS Code編輯區

 

step2. 點選參數列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。

 

i

圖八、SAS程式編輯區

step3. 檢視衍生變數產出結果。

點選參數列的「Exported Data」檢視轉置後結果如下圖。

 

j

 

或者可在分析流程後再拖曳一個Transform Variables Node,此時第二個Transform Variables節點的目的用在於檢視衍生變數結果,而非進行變數處理,流程串接如下圖。

 

k

 

此時,再點選參數列「Variables」檢視衍生變數結果,從變數列中可看到新的衍生變數「NINQ_Bin」。

 

l

圖九、檢視新衍生變數NINQ_Bin產出結果

Tags
Share

About Author

SAS Taiwan

Comments are closed.

Back to Top