
第一期的data mining專欄,Dr. SAS老師想要跟大家分享如何透過強大的SAS Enterprise Miner(簡稱EM)來活用決策樹演算法,來進行更多的不同的資料處理與分析。
第一期的data mining專欄,Dr. SAS老師想要跟大家分享如何透過強大的SAS Enterprise Miner(簡稱EM)來活用決策樹演算法,來進行更多的不同的資料處理與分析。
決策樹的應用 決策樹的應用多是建立預測分類模型,應用產業層面包含:資料庫行銷的回應模型,找出對行銷活動有回應的客戶特徵與回應名單、交叉銷售尋找潛力客群、流失預測模型,找出客戶可能流失的原因與型態(pattern),提前進行客戶挽留、信用風險危機預警模型、詐欺偵測、製造業生產線良率的監控、在雷達信號分析、遠距感應、醫學診斷、專家系統、語音辨識,生物資訊及許多其它的領域。
連續幾期介紹SAS EM決策樹的進階應用與分析處理,本期Dr.SAS回到SAS EM決策樹底層主要分析功能的介紹上。SAS EM決策樹提供兩種建立預測模型的模式,一為互動式建模環境(Interactive mode),另一為自動建模環境(Automatic mode)。兩種分析模式環境各自有其分析使用上的優點,同時SAS EM在SAS EM 7版本以後,也同時將兩個建模環境模式做了整合,讓建模分析人員可以針對系統最適推薦模型,進行專家調整,提供給分析者更佳彈性與實務考量的建模平台。
上期介紹一SAS EM決策樹互動式建模(Interactive mode),這期接續介紹如何利用決策樹自動建模環境(Automatic mode)產生系統最佳模型。Dr.SAS則建議初階資料探勘分析人員在建立決策樹預測模型時,先從互動式決策樹開始分析,分析者可透過一層層決策樹的開展與預測規則的解釋,了解投入變數間的先後重要解釋關係,嘗試選擇較具業務代表性的解釋變數,並可透過解讀預測規則的合理性,來檢視資料的品質。
類神經網路一度曾是最有名,但卻被了解最少的資料探勘演算方法。類神經網路也被大量應用在各個產業上,原因在於類神經網路可以解決非線性複雜模型的建構、本身沒有太多模型假設限制,以及模型產出有很好的預測能力,但唯一在應用上令人詬病的即是模型結果難以解釋。舉例而言,透由類神經網路模型,我們可以找到一組郵購商品回應率很高的客戶名單,但是模型卻無法直接告訴我們,客戶會願意郵購這組商品的主要影響因子為何,因而大大降低了模型的實用性。
接續上期專欄Dr.SAS將要介紹如何運用SAS EM來強化類神經網路的實用性: EM類神經網路主要參數功能以及如何透過決策樹分析解決類神經網路模型解釋性。
迴歸模型 (Linear Regression Model) 是非常流行的統計模式,分析的結果也被大量地應用在各個產業上,然而,迴歸分析雖也屬於資料探勘裡常用的演算方法,但它主要的演算方法卻是來自於統計分析的推估,因此須在正式進入迴歸分析之前,必須先確認各項資料條件滿足迴歸模型的基本假設,才適宜選用迴歸模式進行分析。否則,會造成資料本身不配適迴歸,但卻強迫進行迴歸模型建置,最終結果會造成模型解釋力始終無法被提升。
接續上期專欄Dr.SAS介紹的迴歸模式最佳實務分析流程,Dr.SAS建議讀者在進行迴歸分析之前,先透過SAS EM的Graph Explore節點做資料散布圖形看資料分布的趨勢,或者最佳建議則是整合SAS EG下工作程序下Describe>> Distribution Analysis,選擇Normal Distribution來進行迴歸假設的檢驗程序。確認觀察資料滿足迴歸模型假設後,才能進行接續的迴歸分析程序。若資料不滿足迴歸模型假設時,則需進行適當的資料轉換工作。
連續幾期介紹幾個重要預測模型分析演算方法的實務應用,這一期Dr.SAS接著介紹一下實務上也經常被應用的購物籃分析,以及如何運用SAS EM的關聯分析節點(Association Node)來進行相關分析。
階層分類購物籃分析首要的第一步就是產品分類資料集的準備,當產品的品項繁複時,直接透由關聯節點(Association Node)來進行購物籃分析,關聯分析所得的關聯規則會是細項產品間的交易關聯,甚至可能細到不同品牌,反而不容易看出消費者的整體的消費趨勢。因此透由SAS EM的購物籃節點(Market Basket Node)來進行分析則可以解決傳統購物籃分析的問題,購物籃節點透過商品間的階層關係事先建立,再進行關聯分析時則可以解決上述分析解讀的問題。