擬定分析主題後,在正式進入分析之前,分析材料的準備是資料探勘中極重要的工作環節,分析者須針對欲研究主題列示一份的變數清單,應依分析目的與假設、研究對象與範圍等列式出研究主題可能的相關變數。
在大型的分析專案,初階資料準備過程,容易產出動輒上百個分析者認為可能相關的變數,這些變數有些可能重要,也可能大部分都無相關,需要進一步一一與目標變數進行分析與檢定,才能確認變數的重要性,描述性統計分析或透過圖形檢視的資料瀏覽程序是一種方法,但對於大量分析變數投入時,則會相對耗時。
針對大量資料的變數篩選,EM則提供 Variable Selection node 快速的鑑別哪些變數對預測模型是具有解釋能力的,協助進行變數化簡的資料處理工作,經過 Variable Selection node 的變數檢定程序,與目標變數無相關、相關性小或變數解釋能力小,變數角色會被設為拒絕(Reject),被設為拒絕的變數仍會繼續帶入後續節點,但是不會帶入預測分析裡進行模型建置。
Variable Selection node 透過統計檢定的方法來快速找出解釋變數與目標變數間的關係,提供模型變數預篩選功能。
同時可用以進行分析假設的驗證,確認真實資料是否與分析假設相符,若與假設相符,則可進一步得知其重要程度,反之,可能確認該變數與目標變數無關。
但實務上有時我們會對假設認為應該顯著但分析結果卻拒絕的變數,重新進行資料檢視或進行適當的資料處理來改善它的模型解勢力,特別是業務經驗的重要規則,透過檢定卻產生不顯著的結果時,可能是變數資料結構的問題,建議可透過資料轉換,變數切等、或分群方法來強化變數的解釋能力。
因此,變數篩選節點也可以用來檢視變數資料的狀況,提供變數是否需要進行資料處理的參考資訊。
圖一、Variable Selection node參數列
R-Square 各項主要參數選項的說明如下:
● 最大投入變數門檻值設定 (Maximum Variable Number) —設定投入變數的最大門檻值,預設值為3000。
● 最小相關係數平方值 (Minimum R-Square) —預設值為0.005,若小於預設值則變數角色會被設定為拒絕(Reject)。
● R2增益門檻設定 (Stop R-Square) —除了利用R2預設值進行變數篩選外,亦可以透過R2增益門檻設定,進行篩選調整,若投入變數的R2增益值低於預設值,該變數的變數角色亦會被設為拒絕,預設值為 0.0005.
● AOV16數值資料類別化 (Use AOV16 Variables) — 將數值資料類別化,透過Use AOV16 Variables 參數設定,將連續變數切分成16等分,AOV16 variables可以處理與目標變數的非線性關係,預設值為No.
● 類別變數水準值化簡 (Use Group Variables) — 運用 Use Group Variables 參數設定進行類別變數水準值化簡,依據投入變數與目標變數間的關係進行最適化簡,預設值為Yes.
Chi-Square 各項主要參數選項的說明如下:
● 最小卡方門檻值設定 (Minimum Chi-Square) — 設定類別變數的最小卡方門檻值,預設值為3.84,因為P( chi-square統計量 > 3.84 ) = 0.05,也就是p-value設定在0.05,若分析變數卡方檢定結果其值小於3.84時,該變數的變數角色會被設為拒絕。
● 連續變數類別化 (Number of Bins) — 將連續變數進行資料級距切割,已進行卡方分析,預設值為50。
Variable Selection node 變數篩選方法
Variable Selection node 變數篩選方法主要透過R2或卡方值的計算結果進行變數過濾。如果目標變數屬名目或順序尺度的變數,EM會產生一個 二元虛擬 的目標變數,而不是使用原來的順序或名義目標變量。在逐步回歸分析設定較低的進入門檻和排除門檻以避免排除可能適合的潛在影響變數。
SAS EM 的Variable Selection node 位於 Explore 工具頁籤裡,屬資料預瀏覽程序之一,提供四種篩選方法,均設定在參數列內的 Target Model 選項設定裡:
【Default 預設方法】
Default方法會依據目標變數的資料型態與模型輸入變數決定適當的變數選擇方法。若目標變數屬二元變數且模型投入變數的自由度超過400,則選取卡方檢定,否則系統預設方法為R2法。
【R2相關係數平方值】
R2變數選擇法採用向前逐步迴歸,選取R2最大的模式,依據線性模式快速鑑別出重要的解釋變數。當目標變數屬二元型態時,R2變數選擇法會進行下列三個步驟方法,當目標變數非二元資料型態時,系統只會進行前兩步驟。
第一步、計算R2相關係數平方值
一一計算各變數的R2相關係數平方值,預設門檻值為0.005,若小於門檻值,則變數角色會被設為拒絕,分析者可依據分析需求調整門檻值,門檻值設越高,則排拒的變數越多,反之,則可保留較多的變數;相關係數平方值R2為各變數對目標變數變異的解釋量,亦稱決定係數 the coefficient of determination,值的區間為0~1,數值越接近1越有線性解釋關係。
Variable selection node 針對連續變數會計算其R2相關係數平方值,如月所得、存款餘額等;若是類別變數,則進行one way ANOVA單因子變異數分析,如區域別或產品別。
第二步、向前逐步迴歸(Forward Stepwise Regression)
計算各變數線性模式的決定係數後,留下來具有顯著性的變數會透過向前逐步迴歸(forward stepwise R2 regression)來進行變數評估,逐步迴歸向前法會從變數解釋量最大的變數開始,逐一去尋找解釋量次大的當作投入變數,當沒有任何變數再大於R-Square門檻值時(預設值為0.0005)則會自動停止。
第三步、若為二元目標變數則會進行邏輯斯迴歸分析
【Chi-Square卡方方法】
卡方方法僅適用於二元目標變數,類別型目標變數則會在進行變數篩選程序前先轉換成虛擬二元變數,再進行2×2交叉表的卡方值檢定。
【R and Chi-Square混合方法】
R2和卡方同時使用,視目標變數的資料型態,若屬連續型,則使用R-Square, 若屬類別型,則R-Square和卡方法同時被套用。
【None不進行任何篩選方法】
設定None方法時,EM會自動套用分析者在最大類別變數水準值(Max Class Level)以及最大遺失值比率(Max Missing Percentage)的設定。
Tags