分群結果重在行銷命名與應用
分群分析的結果產出通常不會一次就滿足分析者的需求,往往會透過多次的產出結果的解讀與群集的調整,來找到最適合的群集結果。
分群的結果追求的不是模型的準度而是它的應用性,哪一個群集結果的產出最能讓行銷人員解讀與進一步應用,才是適切的分群結果。因此如何快速的調整或找到適合的分群結果,才是學習分群的重點之一。
分群調整方法包含以下幾種方法:
◎透過參數自動調整
選擇分群分析的Specification Method可進行群集數的調整設定。系統預設為Automatic,當選擇Automatic時,會伴隨分群距離計算的方法設定,預設為Ward法,另外EM還提供Average以及Centroid法,選擇Automatic時,系統會提供最適分群群數結果,但缺點容易分得過細,所以建議初步分群可先採用Automatic方法由系統先跑一版分群結果,依據初步的分群結果,再進一步透過指定群組數(User Specify)的方法,調整最適群數。當選擇User Specify選項時,Maximum Number of Clusters選項才有功能,透過此選項來設定最大群集數。
◎半專家調整
除了透過分群分析節點參數進行群集調整外,亦可單純地由分群分析產出報表--Mean Statistics (如上期專欄的圖三所示),報表其中一欄為Nearest Cluster,顯示各群的最鄰近群的資訊,因此,分析者可透由這欄資訊結合各群變數屬性的平均統計量,進行半專家的群集合併,此時可藉由EM的Replacement Node來做群集合併的資料處理程序。
◎變數調整
依據初步分群結果,點選參數列下的Variables再重新進行分群投入變數的調整,將無顯著差異性區隔的變數排除或變數間相似性過高的重複解釋性的變數做排除,再重新執行分群分析。
◎資料標準化
資料的單位亦會影響分群結果的解釋,分群分執行時只會針對儲存的資料數值進行計算而不會針對資料單位換算,同一個資料欄位進行不同的單位處理計算時,其距離結果也不同;不同資料變數間衡量單位不同時,對距離的貢獻效果在資料解釋上是不同的,但卻無法在分群結果中顯示,所以建議在分群分析時應進行資料的標準化程序來消弭資料單位的影響。Internal Standardization 提供資料標準化的方法,預設方法為Standardization,計算方法為資料值除以標準差,另外還提供Range(全距法),計算方法則為資料值除以全距。
圖一、Cluster Node參數設定列
輔助分群解讀的最佳節點
單單透過分群分析節點產出的Mean Statistics所提供的各分群在各分群變數的平均值,來進行各群特徵差異的辨識可能還不足夠,尤其當資料分布極左偏或極右偏的情況時,平均數往往代表性,因此Dr.SAS建議讀者在進行分群分析時,應連結Segment Profile Node輔助產出更細緻的分群資訊,提供分析者對各分群間的特徵了解,進一步做最適的分群命名。
使用Segment Profile節點時,匯入執行的資料集必須要有一個變數角色為Segment,才會產出報表結果,如上圖,Cluster節點後串接Segment Profile,由於分群分析產出的分群ID, EM會預設該變數角色為Segment,所以可以串接使用,因為變數不須進行角色設定。
Segment Profile節點被歸屬在Assess工具池中,它僅單單提供報表呈現,而不會進行分析工作。Segment Profile節點雖然在EM分析流程經常與分群分析節點串接,但事實上它可以與任何工具節點連接,但前提是該前置節點的資料欄為必須有一個Segment的變數角色,因此它可以結合決策樹的結果,顯示各決策規則的資料分布與母體的差異,亦可運用在人工分群上,分析者可直接依性別、產品別等變數水準值當作分群結果,然後透由Segment Profile產生分群報表。
在分群分析裡建議使用數值型態的分群變數投入,若分析者欲觀察類別資料在各分群的分布情形則建議在Segment Profile中呈現。因此在分群分析裡實務時會將匯入的資料變數分為分群變數與輔助觀察變數,所謂輔助觀察變數本身不影響分群結果,但欲增加群集的解釋維度則可在Segment Profile節點呈現時將該類變數納入。
◎如何設定輔助觀察變數
點選Segment Profile參數列下的Variables,在顯示的變數清單視窗畫面裡將欲在分群報表中當作輔助觀察的變數部分,在Report內將其角色設為Yes,如此這些指定的變數本身不為分群變數,所以不會影響分群結果,但可以增加分群的解釋。
圖二為Segment Profile的報表結果,透過分布圖的方式顯示各群在各變數的資料分布狀況,連續型資料以直方圖表示,類別型資料則以圓餅圖方式呈現。
圖二、Segment Profile報表結果
Segment Profile會依照群集的大小依序排列,各群下最具差異特徵變數會顯示在報表的最前面,所以跨群間的主要特色差異在一張表裡,就可以快速呈現並解讀,此外,每一個變數的分布圖同時呈現該變數在該群的分布與母體分布間的差異,因此可以增進Mean Statistics報表平均統計量的單一數值的解釋。
如下圖,藍色實柱表示特定群集與銀行往來時間的資料分布,紅色虛框則表示母體在該變數的分布情形,所以圖形解釋為該群集的往來時間較母體短,也就是該群的客戶屬於新開戶的客戶為主。
完整的分群分析會建議選擇的群集分析方法再連結SAS EM的Segment Profile節點來產生更細節的群集資訊,而不只單單依據群集的各變數的平均數值來進行命名,不僅可產出更多面向的分群報告,同時分析者也可以依據這樣的報表結果進行較適切的分群命名。
Tags