活學活用迴歸分析 --如何運用SAS EM進行迴歸模式最佳實務分析流程(2)

0

 接續上期專欄Dr.SAS介紹的迴歸模式最佳實務分析流程,Dr.SAS建議讀者在進行迴歸分析之前,先透過SAS EM的Graph Explore節點做資料散布圖形看資料分布的趨勢,或者最佳建議則是整合SAS EG下工作程序下Describe>> Distribution Analysis,選擇Normal Distribution來進行迴歸假設的檢驗程序。確認觀察資料滿足迴歸模型假設後,才能進行接續的迴歸分析程序。若資料不滿足迴歸模型假設時,則需進行適當的資料轉換工作。

迴歸分析的討論議題
    迴歸分析方法經常被應用在各個產業分析的預測模型上,但卻因忽略事前迴歸模型假設的檢定,所以即便觀測資料先天並不適合迴歸,也硬是配適出一條迴歸式,拿來做產業分析預測,產生很大的誤用結果。
除此之外,當資料確認初步滿足迴歸假設,適用選用迴歸模式來進行分析時,仍有幾個資料處理議題必須確認並處理:
 
-    遺失值處理
在迴歸分析的觀測資料裡只要有一個資料欄位值有缺失,迴歸分析會整筆資料忽略不計。因此,無形中會損失掉相當比例的有用資訊。所以匯入迴歸分析的訓練資料集,需為飽和資料集。另外,當迴歸模型建置好,未來需匯入新資料進行模型評分時,則評分資料中若有任一個變數資料有遺失值,也無法進行評分。
因此,如何處理遺失值會是進行迴歸分析前的首要問題。遺失值的處理可以透過SAS EM的Impute節點進行遺失值補值處理(詳細Impute節點介紹會在後續專欄再做完整說明)。
 
-    極端值處理
迴歸分析的演算法含有期望值概念,因此很容易受極端值影響。以下圖為例,觀察資料有極端值,資料間的真實關係式為咖啡色曲線分布,若是直接套用迴歸分析,則因受極端值影響,所以迴歸分析模型如藍色線。
迴歸會因為受極端值(如紅色圈)的影響而產生與真實關係式嚴重偏離的解釋結果,因此分析者若依此配適迴歸方法,所得的分析結果無法真正找到正確的關係解釋。
01
若分析者仍欲採用迴歸來進行上述資料的研究分析,可利用SAS EM的Sample工具頁籤裡的Filter 節點,進行極端值的偵測與過濾的資料處理程序。但若在預測模型建置裡對於極端值的處理比較不建議用資料過濾的方法,因為往往這些極端值可能就是研究主題中的目標客群。
另外,比較建議使用的方法為進行資料轉換處理,將極值的影響降低,用轉換後的資料,重新再配適一條迴歸式。而資料轉換的程序可透過SAS EM的Modify工具頁籤裡的Transform Variable 節點來進行,如此就可以不用將極值排除,亦可以降低極值的影響,亦可配適迴歸分析。如下圖二的右圖,觀察資料先進行資料轉換,然後進行迴歸分析,所得的迴歸式作函式還原,與真實關係式相比較,兩條關係式就相對貼近。也就是說,資料轉置過後的迴歸式較具有解釋預測力。
 02
03
04
-    類別資料處理
迴歸分析因為含有期望值演算概念,因此投入變數建議以連續數值型態變數為主,但免不了還是會關注部分類別型變數與目標變數的關係,因此類別資料匯入迴歸分析時,會將類別變數轉換成虛擬變數(Dummy Variable)來處理。但建議類別變數的水準值不宜過多,建議先進行水準值的化減,避免過多虛擬變數的產生。
若關注的類別變項出現水準值過多而欲進行適度化簡時,可以透過SAS EM的Modify工具頁籤裡的Replacement 節點來進行資料值取代進行水準值化簡的處理工作。
05
彙總這兩期Dr.SAS所介紹的迴歸模式最佳實務分析的流程,EM流程如下圖。欲進行迴歸分析前先確認滿足迴歸模式假設,再依次確認迴歸各項資料問題,如極值問題、類別變數水準值過多以及遺失值問題等,可分別透過SAS EM的Transform Varables節點、Replacement節點以及Impute節點來做前置資料處理,再進行迴歸分析模型建置。利用這兩期的介紹,希望各位讀者對迴歸分析的實務操作有更進一步的了解!
07
06
Tags
Share

About Author

SAS Taiwan

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

Comments are closed.

Back to Top