在真實資料現況裡,分析資料並非完美無虞,往往會有許多資料品質上的問題,難以著手分析,尤其是 遺失值 (Missing value) 的問題在資料預處理階段更是常見處理議題。
交易端的資料遺漏狀況,多可能為系統性問題造成,資料處理與解決相對容易,然而,多數的遺漏值狀況則發生在客戶的個人基本資料,容易因申請者主觀意願不願意填寫或資料欄位為非必要填寫,而造成人為的遺失值問題,進而使得分析結果產生不確定性。一般對處理遺失值多為將遺失值直接刪除,或者直接補「0」、計算該分析變數的平均數或以眾數值來取代。
在SAS EM處理遺失值問題的分析節點為 Impute node,在SEMMA方法論裡的 Modify 下的重要分析節點,因此Dr.SAS將在本期詳細介紹Impute node各種進階的遺失值處理方法。
常見遺失值的成因與補值方法
一般在處理遺失值多會將遺失值值接剔除,此種方法比較適合於大量資料分析且遺漏案例比例少時,直接刪除具有遺失值的紀錄對分析結果影響有限,此外,對於重要性極低且整體資料品質不佳的變數(如:遺失比率超過50%時),或水準值過少或過度集中,甚至可以考慮直接進行變數排除(將該變數的variable role設為reject)。
反之,對於稀有事件的分析,往往這些欲聚焦分析的目標值(如:違約事件)的觀測資料值通常潛藏著較多的遺失值,冒然的進行遺失值剔除的處理,反而更不易分析這些異常事件的行為。因此,對於重要性較高的模型觀測變數,分析者應盡可能找出其適合且相對正確的值來進行補值的工作。
欲選取適當的遺失值補值的方法應視遺失值成因而定,常見的成因有:
▲ 系統轉換造成-- 新舊系統上線造成的系統問題,前後端系統資料整合欄位對應錯誤等,這部分的造成的資料遺漏,並非真正的資料缺失,透過系統調整或ETL程式處理、對應表格(mapping table)欄位適當設計,就可以做資料補救,而不一定需要遺失值補值的方法。
▲ 申請書的不當設計--進件申請書上欄位設計沒有可填寫的項目,因而填錯或不填答,造成輸入資料系統時,產生資料缺失。這一部分的缺漏值通常不多,但可能是代表某一小族群的人,如:外籍人士的身分字號欄位、居住地址等。因此,正確的做法應進行調整申請的系統,而非做補值的程序,或用適當的代碼來說明這群遺失值的意義。
▲衍生變數公式-- 計算比率值時,做為分母的分析變數為「0」等,或原始資料為0,透過如log函數造成的資料缺失,此種情形,通常加一個極小的正數來進行資料處理。
▲私密不願意揭露的資訊-- 申請書上的個人資料為非必要填寫的欄位時,或為申請者私密不願意接露的資訊,如:個人所得,或者問項為開放性問題時,申請者不願表達個人意見時所造成的資料缺漏。此時,建議問項改成選項式以粗範圍的級距方式來取得客戶的個人所得等較敏感性資訊。此類資訊通常為重要的分析影響變數,資料缺漏情況影響較大,因此會透過統計或資料探勘演算等方法來進行遺失值補值的工作。
▲人工的輸入疏失-- 資料輸入的失誤,如格式錯誤或申請者填寫內容不清,使得輸入人員無法辨識而造成的資料遺漏,此種情況的案例通常不多,也較隨機,若資料大量及變數重要性較低,可考慮將遺失的紀錄做剔除;反之,若為小樣本資料且變數重要性高,則建議透過統計或資料探勘演算等方法來進行遺失值補值。
Impute node遺失值補值的方法
SAS EM的Impute node位於 Modify 工具頁籤裡,依據 連續變數(Interval Variables) 以及 類別變數(Class Variables) 提供對應的的補值方法大致分成下列幾類,各種方法的使用建議會在下期再做詳細說明:
■ 母體的統計量補值方法:方法包括有平均數(Mean)、中位數(Median)、眾數(Count)、最大最小值平均值(Mid-Range)、截頭去尾平均值(Mid-Minimum Spacing)、M估計量(Andrew's Wave、Huber、Tukey's Biweight)。連續變數的預設補值方法為平均數(Mean),類別變數預設的補值方法為眾數(Count)。
■ 母體分布(Distribution):依據母體真實資料分布的均數來進行補值。
■ 利用資料探勘模型進行補值:較精準的補值方法為採用資料探勘模型的方法來進行補值,EM提供決策樹(Tree)的方法,將遺失值欄位設定為目標變數,進行值的預測。
■ 使用者自訂(Constant):使用者亦可給予缺失值一個指定值,連續數值常設定為「0」、「99999」,類別數值則設為「N/A」。
■ 不處理(None):分析者可以選擇忽略遺漏值,不進行處理,交由後續模型演算方法來處理。
接下來依序詳細介紹Impute node的各種遺漏值的處理方法與對應參數的設定,輔助說明的資料集為SAMPSIO.HMEQ (Home Equity資料集)。
(1) 準備群集分析資料集
啟動SAS EM並新增一EM專案檔,點選主選單HELP下的Generate Sample Data Source產生樣本資料集:SAMPSIO.HMEQ。
(2)遺失值檢視
在正式進行資料處或分析之前,應對分析資料HMEQ進行資料品質瀏覽,點選分析資料集>Variables參數,EM會快速產生欲瀏覽變數的分布圖,各資料變數有遺失值時,分布圖會以灰色長條圖獨立顯示其比例。
圖一、分析資料品質瀏覽
(3) 進行遺失值處理
至Modify工具頁籤下選取Impute Node與資料節點HMEQ串連,並進行對應參數設定。
圖二、Impute node的參數列
Tags