活學活用關聯分析--如何運用SAS EM進行購物籃分析(1)

0

 連續幾期介紹幾個重要預測模型分析演算方法的實務應用,這一期Dr.SAS接著介紹一下實務上也經常被應用的購物籃分析,以及如何運用SAS EM的關聯分析節點(Association Node)來進行相關分析。

什麼是購物籃分析
購物籃分析又稱關聯分析,從大量的交易資料中,探勘出在資料間具有相關性的隱藏規則與商業知識。購物籃分析最經典的就是啤酒與尿布的例子,世界最大的零售商沃爾瑪(Wal-mart)就運用關聯分析的技術,從每日大量的商品交易資料中進行消費者購買商品間的關聯分析,結果意外發現星期四晚上通常同時購買啤酒與尿布。後來透過市場調查才得知,原來太太叮嚀丈夫下班幫忙買尿布,40%的先生買了尿布後,又會隨手拎幾罐啤酒。得到這樣的關聯規則,沃爾瑪(Wal-Mart)只做一件事,將啤酒和尿布擺在一起,結果兩兩銷售量皆成長三成。
購物籃分析的演算概念主要為兩個機率統計量的計算,分別為Support和Confidence。
n   Confidence :
    在A事件發生的狀況下,同時發生A、B事件的機率=條件機率 = P(B∣A)
n   Support :
    在所有事件發生的狀況下,同時發生A、B事件的機率=P(B∩A)
一個強關聯規則,通常Support和Confidence值都高。但反過來Support和Confidence值都高,卻不一定代表這條規則所指的事件彼此間就一定存在著高相關性。同時還需檢查Lift值是否大於1。
n   Lift值=Confidence/ Expected Confidence                          其中,Expected Confidence為P(B)
當Lift值>1, 則A與B間有正向關係
當Lift值=1, 則A與B間沒有關係
當Lift值<1, 則A與B間為負向關係
什麼樣的資料適合關聯分析
購物籃分析不同於預測模型及分群分析,它所需的資料集格式須為交易型資料,購物籃分析用在分析每一筆的交易內容。在大量交易資料中,購物籃分析能夠告訴我們:消費者通常買什麼,哪些商品經常會被一起購買,以及下一次可能會買什麼。然而也並非所有的交易資料皆可進行購物籃分析,如果交易資料太少,商品品項或分類太少,以及購買者一次多只買一樣商品,則不適宜進行購物籃分析。
另外,若資料品項過多時,進行關聯分析的運算會成幾何級數增加;若分類過於繁雜,進行分析時也容易造成無用的關聯結果產生。因此Dr.SAS認為關聯分析有大量交易資料的處理問題反而關聯分析的作業程序重點之一。
如何運用SAS EM進行購物籃分析
接下來Dr.SAS正式帶領各位透過EM的關聯分析節點(Association Node)來進行購物籃分析,主要的分析流程如下:
  1. 準備交易資料集
(a)變數角色設定。在EM進行購物籃分析準備的資料至少需要兩個欄位:一為客戶代碼,另一為購買商品品項,有這兩個變數欄位便可進行後續的關聯分析了。若資料欄位也保留購買商品日期,則可同時在SAS EM的關聯分析節點內進行序列分析(Sequence Analysis)。同時也需調整變數角色的設定,客戶代碼設為ID,購買商品品項欄位設為Target。若欲進行序列分析,則須將購買商品日期設為Sequence.
01
圖一、交易資料集匯入變數角色設定
(b)資料表角色設定。資料集匯入的最後一步程序則是將資料表的角色設為 Transaction.以上程序設定好,即完成資料匯入工作。
 02
     2. 關聯分析節點參數設定
 
(a)資料表角色設定。EM的關聯分析節點(Association Node)歸放在Explore工具頁籤下,選取 Association節點拖曳到工作畫布上與匯入資料集連結。
(b)參數設定。在關聯分析節點參數設定列,包含Association和Sequence分析的參數選項設定。端視分析者資料面的提供,系統會自動選取最適分析。
 
 
  • Maximum Items關聯品項最長組合限定。若需要規則越細緻越複雜可將此值調高一點。                                            
  • Minimum Confidence Level信賴水準門檻值設定。若關聯規則過於複雜或簡單,可透過此參數值來調整。
  • Support Percentage支持度門檻值設定。若關聯規則過於複雜或簡單,可透過此參數值來調整。通常會先調整Support值,再調Confidence值。
        3.重要關聯規則報表結果
    調整好關聯分析參數設定後,執行後檢視結果。SAS EM提供許多圖示化的關聯圖形,如Statistic Plot、Statistic Line Plot、Rule Matrix(如圖三),這些圖形的呈現,目的在提供分析者透過圖示的方式快速檢視潛在重要規則或過濾無用的規則,並提供參數調整值的參考依據。
 04
圖三、各式關聯分析圖形呈現
圖形的呈現目的在協助分析者快速找到潛在有用規則的輔助資訊,但最重要的產出結果就彙整在Statistic Plot Table裡,該表就存放在View>Table. Statistic Plot Table 為所有可能關聯規則的產出,依照Lift值的高低作排序,同時也顯示各規則的Support與Confidence 值。Lift值大於1同時Support值與Confidence值越大的即表示該規則具有正向的強關聯。把強關聯的規則過濾出來再一一檢視並透過業務經驗來解讀,從中找出潛在有用的商業規則。
 05
 
Tags
Share

About Author

SAS Taiwan

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

Comments are closed.

Back to Top