如何運用SAS EM進行各式抽樣及過度抽樣(下)

0
抽樣的適當與否對於模型的準確性與可解釋性有很大的影響,因此抽樣設計在模型建置程序裡是很重要的研究議題,也因此Dr.SAS特闢系列專欄來詳細介紹抽樣方法與SAS EM sample node的各種抽樣方法的參數設定使用,希望各位讀者在詳加了解各種抽樣方法後,能適當的運用並將模型調整的更精緻。

通常抽樣的目的是希望能抽出具有母體代表性的樣本資料,以建置不偏且具有母體解釋性的模型。然而在一些情況下,特別是稀有事件的分析,我們反而會採取所謂的過度抽樣方法(oversampling),將稀有事件全取,非稀有事件則隨機抽樣,讓樣本的事件比例較為均衡,以避免產生建不出事件規則的情況,這樣的抽樣方法又稱為錯誤抽樣(error-sampling)。SAS EM的Sample node裡的分層抽樣就提供分析者快速的產生所需的過度抽樣比例。
6.2  同樣大小(Equal):
設定分層抽樣方法為同樣大小(Equal)時,即為進行好壞客戶比1:1的過度抽樣程序。分層抽樣--同樣大小法的參考程式碼如下:
01
下圖為分層抽樣--同樣大小法的抽樣結果,原始母體的資料為好壞客戶比7:3,資料總筆數為1000筆。進行Equal的分層抽樣方法時,好壞客戶的抽樣方式會以1:1的比例進行抽樣,因此Equal法也是一種過度抽樣的方式,當分析者欲直接以1:1過度抽樣比例建模時,Equal法是最直接的設定方法。以本例而言,欲抽取母體資料的10%當作樣本,選擇分層抽樣的同樣大小法,抽出的好壞客戶數各為50筆。
02
6.3  最適配置法 (Optimal):
分層抽樣--最適配置法則是依據各分層的人數以及分析變數的變異程度來進行各分層樣本人數的決定。選擇分層抽樣--最適配置法必須將指定的分析變數的變數角色設為Deviation, 如下圖所示,指定的分析變數為duration,預設的分層變數為good_bad, Sample node會依各分層計算duration的資料變異程度(如表一)。
03
圖:抽樣節點--變數角色設定
04
此時各層抽樣人數計算如下:
   good_bad=0(好客戶)的抽樣人數:100*7755.72/(7755.724+3984.78) =  66
   good_bad=1(壞客戶)的抽樣人數:100*3984.78/(7755.724+3984.78) =  34
        下圖為分層抽樣--最適配置法的抽樣結果。抽樣人數計算方法如上述所示,以本例而言,欲抽取母體資料的10%當作樣本,選擇分層抽樣的最適配置法,抽出的好壞客戶數各為66及34筆。
05
6.4  比例自訂(Level Based):
分析者若要針對稀有事件分析進行過度抽樣方法,Sample node的分層抽樣--比例自訂法是最快速的抽樣處理方法。當選擇Level Based法,對應的參數設定就要到Level Based Options參數組下進行設定,Level Selection
06
如何運用EM Sample node進行過度抽樣
以DMAGECR資料集為例,母體好壞客戶比為7:3, 假若我們想要抽取好壞客戶比3:2,同時壞客戶要全部抽取,在Sample node的對應參數設定的程序步驟如下:
1. 將Stratified參數設定群組下的Criterion設為Level Based.
2. 接著至Level Based Options參數設定群組下將Level Selection選擇為Rarest Level. 此時,Sample node會依目標變數中事件類別水準中事件比例最少者,當作後續抽樣依據。
3. 因為欲全取壞客戶,故需將Level Proportion設為100
4. 好壞客戶比由原本的7:3調整為3:2,意即壞率為40%,因此將Sample Proportion設為40
執行Sample node,得到的抽樣結果如下:
07
如何決定最佳誤差抽樣的比例
最佳誤差抽樣取決於模型的解釋合理性、預測準確率與模型穩定度,Dr.SAS建議讀者可以從1:1的抽樣比例逐步調整至與母體比例,進行跨模型比較。此時,EM提供極佳的跨模型比較平台,透過Model Comparison Node來選取輔助選取模型結果較佳的抽樣設計(如下流程圖)。
08
Tags
Share

About Author

SAS Taiwan

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

Comments are closed.

Back to Top