活學活用分群分析--如何運用SAS EM Cluster node進行客群分析(1)

0
前幾期介紹的決策樹、迴歸分析、類神經網路等都屬於資料探勘中預測模型的演算方法。所謂模型預測,即是有所謂的預測目標變數值的產出。
這種有預測對象的演算方法,我們又稱之為監督式學習方法。另外,上期介紹的購物籃分析,由於在分析時我們並沒有輸入所謂的預測目標變數,也沒有預期的特定資料產出,端賴關聯演算探勘出資料間的規則關係,此種演算方法稱之為非監督式學習。
所謂監督式學習與非監督式學習的差異,主要在於目標預測變數,監督式學習,有目標變數去訓練模型,因此模型評估講求準度;而非監督式分析的目的在於找出輸入變數間的內部關係與資料的形貌(pattern),找出資料間大致分布的趨勢,而沒有要預測的對象,實務上常被拿來應用的非監督式演算方法還有群集分析。
本期Dr.SAS將要介紹如何活用SAS EM的分群分析節點(Cluster Node)來進行相關分析。

在SAS EM裡提供的非監督式群集分析的相關節點則有Cluster節點SOM/Kohnen節點兩種群集偵測方法。前者適用數值型資料變數,後者則為連續型與類別型資料皆可適用。本期專欄將針對Cluster節點做詳細介紹,另外也將分群節點所產生的分群結果,連結SAS EM的Segment Profile節點,進一步地產生進階的分群報告,以提供分析者更細緻的了解各群集的主要特色。

Cluster節點的演算方法

Cluster節點底層的演算方法為K-means,其基本的演算概念為計算K群集的質中心,並指定與質中心鄰近的點為各群集內的成員。

19

圖一、K-means演算方法群集形成

分群分析的首要步驟為先決定好分群目的,再依分析目的選擇適當的分群投入變數。若行銷分析人員想要呈現客戶基本資料分群結果,則投入分群變數宜為行為分群結果時,在投入分群變數的選擇則宜以消費類型、消費金額、消費頻率等描述客戶消費行為的變數進行分析。同一個母體客群以不同的分析維度進行客群切割,則可能產生截然不同的結果。同時分析變數以數值型態的資料為佳,實務上主要分群變數也不宜過多,建議不超過8~10個變數,其餘未投入分群且具有群集重要解釋性者則可連結EM的Segment Profile節點,當作群集的輔助觀察變數作進階解釋。
第二步驟則為決定群組數K。EM會先隨機指定K個質點當作初步群集的質中心。接著,依據各質點,指定鄰近的觀測點。得到K群的群內成員,會重新計算各群的質中心。依據得到的新的群中心,再重新指派鄰近點。不斷重複上述步驟,直到群中心不再變動,分群程序才正式完成。
如何運用SAS EM進行分群分析
接下來Dr.SAS正式帶領各位透過EM的分群分析節點(Cluster Node)來進行房貸客群分析,分析資料取自SAMPSIO.HMEQ,主要的分析流程如下:
1. 準備群集分析資料集
啟動SAS EM並新增一EM專案檔,點選主選單HELP下的Generate Sample Data Source產生樣本資料集:SAMPSIO.HMEQ。
(a)變數角色設定。進行分群分析準備的資料不需要目標變數(Target),僅需要決定投入變數(Input),所以此一階段將不要納入分群分析的變數設為Reject,同時建議投入變數以連續型資料為佳。
7
圖二、群集資料集匯入變數角色設定
(b)資料表角色設定。資料表的角色設為 RAW,完成資料匯入工作。
3
2. K值的決定
Cluster節點提供三種分群方法:Ward, Average, Centroid來決定最適的分群數,當選擇Ward法時,K值則預設為系統自動決定。通常第一次預執行群集偵測時,先用automatic,後再依據分群結果指定特定群數N作調整。
5 10
3. 重要分群報表結果
調整好分群分析參數設定後,執行後檢視結果。Cluster節點所產出的結果解釋上相對其他分析來的單純,主要的解讀報表為Mean Statistics。
如下圖,依據預設參數設定總共產生20個分群,報表顯示各群集在各變數分布的平均值及群集的分布大小。分析者可透過報表的解讀,初步掌握各分群的特色。然而,實務上在分群數會做適度控制,分的過細,群間的差異不易顯現,也難以命名管理,適當的群數會建議不超過10~12群,同時,另一個實務的決定群數的方法為群數小於投入變數數較佳,如此各分群的特徵差異才容易顯現。
6
圖三、分群分析報表--Mean Statisitcs
Tags
Share

About Author

SAS Taiwan

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

Comments are closed.

Back to Top