資料處理篇

資料處理篇

SAS Taiwan 0
如何運用SAS EM進行變數處理與衍生變數產生(下)

Transform Variables node變數轉換的案例情境說明   延續『如何運用SAS EM進行變數處理與衍生變數產生(中)』文章說明   4. 利用「Formula衍生變數編輯區」進行衍生變數處理   【情境說明】 -產生衍生變數公式編輯計算逾期週期 -運用SAS 運算函數進行變數轉換 step1.  點選參數列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。   圖一、Transform Variables Node參數列   step2.  點選「Formula衍生變數編輯區」視窗左上列的 (新增衍生變數鈕) 列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。   圖二、Formula衍生變數編輯區   step3.  點選「Build...」進入「Expression Builder」衍生變數公式編輯區。除了簡單的四則運算式編輯外,在編輯區下方提供各類運算函式,以利分析者進行進階演算式產出。 位於函數區旁的另一個頁籤,則完整列出原始資料集的變數清單,分析者無須記憶變數名稱,可透過點選拖曳方式將進階處理的變數投放入編輯區。   圖三、Formula衍生變數編輯區--新增變數   step4.  產生衍生變數一:「Delinq_Freq逾期週期」,衍生變數公式:IMP_CLAGE(貸款往來期間)/IMP_DELINQ (逾期次數)。 從「Variables List原始變數列表區」選取變數IMP_CLAGE及IMP_DELINQ,點選「Insert」將欲處理之變數置放於衍生變數公式編輯區進行上述公式編輯。   圖四、Formula衍生變數編輯區--變數公式編輯與變數命名 step5.  點選「OK」,完成衍生變數新增。   step6.  產生衍生變數二:「LOG_YOJ工作年資對數化」,衍生變數公式:LOG (IMP_YOJ)。 重複Step2、Step3 進行衍生變數新增程序,從「Functions函數區」選取 Log

SAS Taiwan 0
如何運用SAS EM 進行樣本預區隔與極值偵測(上)

  SEMMA 方法論第一步的「S」即為Sample,此處的Sample有多個意涵,一為分析樣本的定義,如何從分析母體抽取適當的樣本資料,以及如何選擇最適抽樣。SEMMA方法論告訴分析者當進行分析建模時,我們應取用樣本資料而不是直接匯入母體資料進行建模程序。同時,母體資料不一定是資料庫裡的全體觀測值,端賴分析的主題來進行分析樣本的定義與確認。

SAS Taiwan 0
如何運用SAS EM 進行變數篩選(上)

擬定分析主題後,在正式進入分析之前,分析材料的準備是資料探勘中極重要的工作環節,分析者須針對欲研究主題列示一份的變數清單,應依分析目的與假設、研究對象與範圍等列式出研究主題可能的相關變數。

SAS Taiwan 0
如何運用SAS EM繪製圖表以快速瀏覽大量資料

在SAS EM匯入分析資料後,建議讀者先運用幾個EM分析節點進行資料的檢視與瀏覽,檢視原始資料集其實是資料分析很重要的基本功能,可以培養對資料的敏感度,每一筆資料都是一個行為發生,透過直接的檢視資料,可以增加說故事的能力,甚至檢視資料的異常值,便於快速進行資料處理,以及有創意的衍生變數產生,產生精準的預測模型結果。

SAS Taiwan 0
如何運用SAS EM進行各式抽樣及過度抽樣(下)

抽樣的適當與否對於模型的準確性與可解釋性有很大的影響,因此抽樣設計在模型建置程序裡是很重要的研究議題,也因此Dr.SAS特闢系列專欄來詳細介紹抽樣方法與SAS EM sample node的各種抽樣方法的參數設定使用,希望各位讀者在詳加了解各種抽樣方法後,能適當的運用並將模型調整的更精緻。

SAS Taiwan 0
如何運用SAS EM進行各式抽樣及過度抽樣(上)

本期開始Dr. SAS將會系列介紹如何運用SAS EM進行模型建置前的各項資料處理,首先將介紹Sample node的使用方法。在SAS EM建模方法論SEMMA的工作循環裡,SAS EM告訴我們分析的第一步驟即為進行Sample,這裡的sample代表著樣本資料與抽樣方法。在模型建置程序裡須取用的資料為樣本資料(sample data),而非母體的全體資料,同時取樣的樣本集必須具有母體代表性,如此模型才具有解釋意義,也才能真實被應用。

SAS Taiwan 0
如何運用SAS EM進行遺失值處理(下)

Impute node遺失值補值的方法 本期將針對 Impute node 的各種方法的使用建議再做詳細說明: ■  母體的統計量補值方法: 平均數(Mean)為最常用來做連續變數的補值方法,然而,平均數適用於對稱的鐘型分布(常態分布),若資料極右偏或左偏分布則不適用,平均數易受極值影響,可考慮用分群平均數來取代整體平均數。如以所得為例,資料有極值時,以區域別及年齡層進行群集區隔,以各群的所得平均來進行補值,相對整體平均值更具有參考解釋性。 考量平均數易受極端值影響的特性,除了分群平均數的方法處理外,亦可選擇使用Median(中位數)、Mid-Range(最大最小值平均值) 、截頭去尾平均值(Mid-Minimum Spacing)等方法來進行補值。其中,最大最小值平均值法為(最大值+最小值)/2,截頭去尾平均值法則為去除兩端n%的觀測值後,再取用Mid-Range。 另外,眾數法(Count)則以變數類別水準出現頻率最高的來補值,眾數法適用於類別資料的遺失值補值。 ■  母體分布(Distribution): 依據母體真實資料分布的均數 μ 來進行補值。 ■  利用資料探勘模型進行補值: 較精準的補值方法為採用資料探勘模型的方法來進行補值,EM提供決策樹(Tree)的方法,將遺失值欄位設定為目標變數,進行值的預測。通常針對重要具有模型影響性的變數,建議採用此法。 ■  使用者自訂(Constant): 使用者亦可給予缺失值一個指定值,連續數值常設定為「0」、「99999」,類別數值則設為「N/A」。 ■  不處理(None): 分析者可以選擇忽略遺漏值,不進行處理,交由後續模型演算方法來處理。   迴歸分析與類神經演算方法,遇到觀測值中欄位有缺失時,會自動忽略不計,所以無形之中會損失很多重要資訊,因此,缺失值的處理在迴歸分析或類神經相對重要,補值的方法就可以依上述所說的各種統計、資料探勘等方法來處理缺失值問題。決策樹則有自動處理的能力,遺失值可以獨立一個分支、或歸在最多分支、或最有相關的分支裡。   Impute node遺失值補值的案例說明       接續上期分析流程: (1) 準備群集分析資料集:SAMPSIO.HMEQ (2) 進行遺失值檢視 (3) 進行遺失值處理 至Modify工具頁籤下選取Impute Node與資料節點HMEQ串連,並進行對應參數設定。 圖一:Impute node的參數列   Impute node 針對類別變數(Class Variables)

SAS Taiwan 0
如何運用SAS EM進行變數處理與衍生變數產生 (上)

資料探勘分析是一種科學方法,然而在資料處理與流程設計卻是門藝術。同一份資料集,不同的分析人員即便選用同一種分析工具,都極可能會產生不同的模型分析結果與應用方向,差異在於分析者對各資料解讀的深度、變數的選擇能力以及進一步的對資料處理的能力,資料處理中尤其以變數處理與衍生變數的產出,優秀的資料科學家就是在剖析問題的邏輯性與重要的衍生變數上勝出,這一階段的處理程序往往造就模型的準度與模型的精細解釋度。

SAS Taiwan 0
如何運用SAS EM進行各式抽樣及過度抽樣(下)

抽樣的適當與否對於模型的準確性與可解釋性有很大的影響,因此抽樣設計在模型建置程序裡是很重要的研究議題,也因此Dr.SAS特闢系列專欄來詳細介紹抽樣方法與SAS EM sample node的各種抽樣方法的參數設定使用,希望各位讀者在詳加了解各種抽樣方法後,能適當的運用並將模型調整的更精緻。

Back to Top