Filter node案例情境說明
接下來將透過案例情境詳細展示Filter node的主要資料過濾條件設定,輔助說明的資料集為SAMPSIO.DMAGECR (German Credit資料集)。
1.準備分析資料集
啟動SAS EM並新增一EM專案檔,點選主選單HELP下的Generate Sample Data Source產生樣本資料集:SAMPSIO.DMAGECR。至Sample工具頁籤拖曳「Filter node」到工作畫布上並與Input data node–German Credit串接,進行極值偵測與資料過濾工作。
啟動SAS EM並新增一EM專案檔,點選主選單HELP下的Generate Sample Data Source產生樣本資料集:SAMPSIO.DMAGECR。至Sample工具頁籤拖曳「Filter node」到工作畫布上並與Input data node–German Credit串接,進行極值偵測與資料過濾工作。
2.進行預設值重設
使用Filter node進行極值偵測與排除時,建議一開始前先將Default Filtering Method值由預設值都改成改成「None」,欲處理的分析變數,則透過 Variables參數一一進行最適方法設定。
3.進行極值偵測與排除條件設定
(1)變數 age依分析目的設定在20~60歲,以及排除duration未滿六個月的客群。
點選參數列「Interval Variables」,即會跳出「Interactive Interval Filter」互動式視窗,分別點選視窗內的變數清單中的「age」變數,將Filter Method設定為「User Specified」,可透過互動式的圖形拖曳,篩選欲分析的目標客群,系統會自動計算出對應的下界(Filter Lower Limit)及上界(Filter Upper Limit),或直接透過人工鍵入的方式決定選取資料的上下界。
(2) 變數amount採Extreme Percentiles分布極端值百分比設定資料區間
在視窗內的變數清單中的「amount」變數,將Filter Method設定為「Extreme Percentiles」,系統預設分布左右兩端0.5%,視為資料的相對極值進行排除,即99%以外的資料視為資料的極端值,若欲調整切點門檻值,需至參數列「Tuning Parameters」進行調整。
(3) 變數purpose依分析目的設定選取車貸客群,其中「0」表新車,「1」表二手車。
點選參數列「Class Variables」,即會跳出「Interactive Class Filter」互動式視窗,分別點選視窗內的變數清單中的「purpose」變數,將Filter Method設定為「User Specified」,可透過互動式的圖形直接選取欲排除的類別水準,點選「Apply Filter」。
4.執行並檢視結果
執行結果會顯示類別變數各類別水準的排除客戶數,以及連續變數的排除樣本數與選擇的資料過濾方法。
Tags