接續上期抽樣方法介紹,本期Dr.SAS將將繼續介紹在EM Sample node裡如何進行分群抽樣、分層抽樣,以及運用Sample node進行過度抽樣的方法。
5 分群抽樣:Cluster sampling分群抽樣又稱整群抽樣或集體抽樣,將母體依據特定特徵值分成若干的群組然後依據隨機抽樣從分組的群集中,抽出樣本群集,被抽中的的群組,群內的樣本會全抽。當選取分群抽樣方法時,則必須點選參數列的Variables,調整Sample Role來決定分群變數,進行分群抽樣程序。如下圖所示:
注意在分群抽樣時,只能選擇一個分群變數進行抽樣依據,同時該變數須為Nominal類別型資料型態。所以若如上圖例所示,選取三個變數進行分群抽樣,會產生錯誤訊息。
選擇job變數當作分群抽樣變數,產生的分群抽樣結果如下:
如上圖分群抽樣結果所示,母體資料為1000筆,壞客戶比率為30%;分群抽樣選擇job變數當作分群變數,job變數的類別水準有四類,抽樣結果抽出job=4的群集,同時Sample node從該群集內抽出指定的樣本比例,分群抽樣樣本資料148筆,並且會依照目標變數好壞客戶比進一步進行分層抽樣。如上圖分群抽樣結果所示,樣本資料的好壞客戶比也幾近於7:3與母體結果相近。
6 分層抽樣法(stratified sampling):
將母體依特定屬性分類,每一類即為一層,再依比例從各層內進行隨機抽樣。分層抽樣的特色為各層間的平均變異数大,層內變異小。Sample node的分層抽樣使用上必須選擇類別資料型態變數當作分層變數(如Nominal、Ordinal、binary),由於樣本依據母體各分層的比例進行資料抽取,因此樣本較具母體代表性,如此也提高模型的分類準度。分層抽樣共有四種方法:比例配置法(Proportional)、同樣大小(Equal)、最佳配置法 (Optimal)、比例自訂(Level Based),接下來將詳述分層抽樣四種方法的差異與使用方法。
6.1 比例配置法(Proportional):
指各層大小不同時按各層在總體中的比例確定抽樣單位數,若各層大小相同,比例配置结果實際即為相等配置;若未選擇分層變數,Sample node預設會以目標變數(Good_Bad)當作分層變數。如本資料案例母體的好壞客戶比為7:3,樣本的好壞客戶比亦為7:3。分層抽樣--比例配置法的參考程式碼如下:
如同分群抽樣的方法,分層抽樣亦可指定分層變數,此處的分層變數可指定多個類別型變數,每一個類別水準組合即視為一層,Sample node依照各層佔母體比例,進行比例抽樣,同時亦會依照母體好壞客戶比進一步進行分層抽樣。
下圖為分層抽樣--比例配置法的抽樣結果,母體資料為1000筆,壞客戶比率為30%;分層抽樣選擇job變數當作分層變數,job變數的類別水準裡有四個
分類,依據指定的抽樣比例各分層抽出10%,分層抽樣樣本資料108筆,並且會依照目標變數好壞客戶比進一步進行分層抽樣。如上圖分群抽樣結果所示,
樣本資料的好壞客戶比也幾近於7:3與母體結果相近。
Tags