決策樹的應用 決策樹的應用多是建立預測分類模型,應用產業層面包含:資料庫行銷的回應模型,找出對行銷活動有回應的客戶特徵與回應名單、交叉銷售尋找潛力客群、流失預測模型,找出客戶可能流失的原因與型態(pattern),提前進行客戶挽留、信用風險危機預警模型、詐欺偵測、製造業生產線良率的監控、在雷達信號分析、遠距感應、醫學診斷、專家系統、語音辨識,生物資訊及許多其它的領域。
Chinese
Variable Selection node案例情境說明 根據上篇的介紹,接下來將透過案例情境詳細展示 Variable Selection node 的變數篩選結果,輔助說明的資料集為 SAMPSIO.HMEQ (Home Equity資料集)。
第一期的data mining專欄,Dr. SAS老師想要跟大家分享如何透過強大的SAS Enterprise Miner(簡稱EM)來活用決策樹演算法,來進行更多的不同的資料處理與分析。
連續幾期介紹SAS EM決策樹的進階應用與分析處理,本期Dr.SAS回到SAS EM決策樹底層主要分析功能的介紹上。SAS EM決策樹提供兩種建立預測模型的模式,一為互動式建模環境(Interactive mode),另一為自動建模環境(Automatic mode)。兩種分析模式環境各自有其分析使用上的優點,同時SAS EM在SAS EM 7版本以後,也同時將兩個建模環境模式做了整合,讓建模分析人員可以針對系統最適推薦模型,進行專家調整,提供給分析者更佳彈性與實務考量的建模平台。
上期介紹一SAS EM決策樹互動式建模(Interactive mode),這期接續介紹如何利用決策樹自動建模環境(Automatic mode)產生系統最佳模型。Dr.SAS則建議初階資料探勘分析人員在建立決策樹預測模型時,先從互動式決策樹開始分析,分析者可透過一層層決策樹的開展與預測規則的解釋,了解投入變數間的先後重要解釋關係,嘗試選擇較具業務代表性的解釋變數,並可透過解讀預測規則的合理性,來檢視資料的品質。
類神經網路一度曾是最有名,但卻被了解最少的資料探勘演算方法。類神經網路也被大量應用在各個產業上,原因在於類神經網路可以解決非線性複雜模型的建構、本身沒有太多模型假設限制,以及模型產出有很好的預測能力,但唯一在應用上令人詬病的即是模型結果難以解釋。舉例而言,透由類神經網路模型,我們可以找到一組郵購商品回應率很高的客戶名單,但是模型卻無法直接告訴我們,客戶會願意郵購這組商品的主要影響因子為何,因而大大降低了模型的實用性。
接續上期專欄Dr.SAS將要介紹如何運用SAS EM來強化類神經網路的實用性: EM類神經網路主要參數功能以及如何透過決策樹分析解決類神經網路模型解釋性。
迴歸模型 (Linear Regression Model) 是非常流行的統計模式,分析的結果也被大量地應用在各個產業上,然而,迴歸分析雖也屬於資料探勘裡常用的演算方法,但它主要的演算方法卻是來自於統計分析的推估,因此須在正式進入迴歸分析之前,必須先確認各項資料條件滿足迴歸模型的基本假設,才適宜選用迴歸模式進行分析。否則,會造成資料本身不配適迴歸,但卻強迫進行迴歸模型建置,最終結果會造成模型解釋力始終無法被提升。
接續上期專欄Dr.SAS介紹的迴歸模式最佳實務分析流程,Dr.SAS建議讀者在進行迴歸分析之前,先透過SAS EM的Graph Explore節點做資料散布圖形看資料分布的趨勢,或者最佳建議則是整合SAS EG下工作程序下Describe>> Distribution Analysis,選擇Normal Distribution來進行迴歸假設的檢驗程序。確認觀察資料滿足迴歸模型假設後,才能進行接續的迴歸分析程序。若資料不滿足迴歸模型假設時,則需進行適當的資料轉換工作。
連續幾期介紹幾個重要預測模型分析演算方法的實務應用,這一期Dr.SAS接著介紹一下實務上也經常被應用的購物籃分析,以及如何運用SAS EM的關聯分析節點(Association Node)來進行相關分析。
分群結果重在行銷命名與應用 分群分析的結果產出通常不會一次就滿足分析者的需求,往往會透過多次的產出結果的解讀與群集的調整,來找到最適合的群集結果。 分群的結果追求的不是模型的準度而是它的應用性,哪一個群集結果的產出最能讓行銷人員解讀與進一步應用,才是適切的分群結果。因此如何快速的調整或找到適合的分群結果,才是學習分群的重點之一。
階層分類購物籃分析首要的第一步就是產品分類資料集的準備,當產品的品項繁複時,直接透由關聯節點(Association Node)來進行購物籃分析,關聯分析所得的關聯規則會是細項產品間的交易關聯,甚至可能細到不同品牌,反而不容易看出消費者的整體的消費趨勢。因此透由SAS EM的購物籃節點(Market Basket Node)來進行分析則可以解決傳統購物籃分析的問題,購物籃節點透過商品間的階層關係事先建立,再進行關聯分析時則可以解決上述分析解讀的問題。
若您的 SAS EM 中文節點無法正常顯示,顯示為方框字如下: 方法一: 改為英文介面,請參考: https://blogs.sas.com/content/sastaiwan/?p=3336 方法二: 下載Hot Fix,方法如下: 請至以下下載對應版本的Hot Fix並安裝。 SAS 9.4 TS1M5 ( Hot Fix: B8M002 ) : http://ftp.sas.com/techsup/download/hotfix/HF2/B8M.html#61842 l 下載 Hot fix 至 C:Program FilesSASHomeInstallMiscHotFixesNew 目錄。 注意, 不要解開 zip 檔案。 l 關閉所有 SAS 應用程式。 l 請使用管理員身分,啟動 SAS Deployment Manager。若找不到, 請直接執行 C:Program FilesSASHomeSASDeploymentManager9.4sasdm.exe 。 l 依照Hot Fix 的 Documentation說明, 安裝更新檔。
專案中有資料之後,您即可建立報表及執行資料分析。若要執行此作業,請從 [工作清單] 或 [工作] 功能表選取 SAS 工作。有些工作會以精靈引導您完成必要的選擇。您可以透過功能表或 [工作清單] 中位於相關工作旁的連結,來存取精靈。 在 SAS Enterprise Guide 中,各個工作視窗皆使用相同的格式,因此只要您熟悉某項工作的執行方式,執行其他工作即不成問題。 -->進入學習 假設特色食品商店要舉辦清倉特賣,因此您必須建立報表,依類別列出每項產品的現有存貨。此報表必須顯示產品名稱、類別號碼、單價、與存貨單位數量。您可以使用 [清單報表] 精靈建立包含這些資訊的報表。 -->進入學習 長條圖能讓閱讀者一目了然所表示項目分布的狀況,您已建立會列出各產品類別之個別產品庫存量與總庫存量的報表。現在我們將建立視覺化報表,以呈現各產品類別的庫存分布情形。 -->進入學習
在SAS EG的強大繪圖功能中,有一個一定要介紹的功能,就是我們今天要介紹的『ODS 圖形編輯器』。首先,我們可以從工具列上方的工具->圖形->ODS 圖形編輯器
SAS EG提供許多報表樣式的結果可供選擇,其中大家最為熟稔的結果格式莫過於PDF了,而RTF結果格式是可以用Microsoft Word開啟編輯的檔案;最原始的結果格式為文字輸出,亦即可使用文字編輯器(記事本)開啟編輯的檔案。今天我們要介紹的是使用HTML格式輸出的報表結果。
SAS EG提供許多報表樣式的結果可供選擇,其中大家最為熟稔的結果格式莫過於PDF了,而RTF結果格式是可以用Microsoft Word開啟編輯的檔案;最原始的結果格式為文字輸出,亦即可使用文字編輯器(記事本)開啟編輯的檔案。今天我們要介紹的是使用SAS報表格式輸出的報表結果。
[新增報表] 視窗可讓您將專案中的多項工作所產生的 SAS 報表格式結果,合併到單一 SAS 報表中。您也可以在報表中插入文字與影像。每當重新執行產生結果的工作或程式碼,即會自動重新整理報表中的結果。SAS 報表可發行至 Repository,以與 Web Report Studio 之類的應用程式搭配使用。 在此主題中,您將建立合併圓形圖與摘要表的報表,並在報表中新增標題。 接下來您將啟動 [新增報表] 視窗。
當擁有兩個EG檔案A專案及B專案想要結合為一個專案的時候該怎麼辦呢? 可以藉由簡單的【複製】 及【 貼上】 動作,將想要流程部分作整合動作。
步驟5:由於表3-14所得之相關係數均大於0.3(或0.4),刪除問題也無法再增加信度,因此「創新接受程度」總量表並未刪除任何問題,Cronbach a係數內在一致性信度為0.868245。進一步針對分量表進行信度分析,由表3-15與表3-16可以看出,兩個分量表(兩個因素)的相關係數也都大於0.3(或0.4),刪除問題也無法再增加信度,因此兩個分量表也毋需再刪除任何問題,Cronbach a係數內在一致性信度分別為0.840702與0.773107。
經過信度分析後,本單元要來教各位如何以因素分析來進行量表的項目分析 本篇文章Dr. SAS來教您 統計分析
[匯入資料] 精靈可讓您從文字、HTML 或 PC 型資料庫檔案 (包括 Microsoft Excel、Microsoft Access 和其他常用格式) 建立 SAS 資料集。 您可以指定選項,以控制如何匯入輸入檔案以及如何將其儲存為 SAS 資料集。 您必須為特色食品商店建立每個類別號碼皆有描述標籤的 SAS 資料集。這項資料會儲存在文字檔中,而您可以使用 [匯入資料] 精靈,將文字匯入 SAS 資料集中。 在此主題中,您會使用 [匯入資料] 精靈從 FixWidth 文字檔中的資料建立名為 [Categories] 的 SAS 資料集。建立的 SAS 資料集會有兩欄:CategoryID 與 CategoryName。 -->進入學習
查詢是從一或多個資料來源擷取資料的要求。在此介紹查詢與資料的幾種搭配使用方式。 -->進入學習 您已建立會依類別號碼顯示各產品之總庫存量的報表。假設您也想瞭解公司中獲利性最高與最低的產品與產品類別,以期就公司應繼續銷售的產品組合提出相關建議。您希望報表顯示下列資訊: 產品類別的標籤 (而非號碼) 各產品與產品類別的銷售所產生的總利潤 各產品與產品類別的銷售所產生的平均利潤 先依產品類別、再依產品排序的資料 怎麼做呢?-->進入學習
在做資料統計分析之前,我們都會對資料做一些處理,尤其是文字型的變數,其中可能某一段對我們的分析有特殊涵義,以電話號碼為例,區碼就是一個很重要的資訊,另外每個區域的電話長度也都不一樣,所以可以藉此特性檢查電話號碼有無錯誤,下面我們將針對下面一個簡單的資料,使用較常使用5個的文字函數做資料處理 原始資料 範例1:從電話中取出區域代碼 Step1.選擇查詢產生器 Step2.將原始資料變數拉入右側的選取資料中後,點選 Step3.選擇進階運算式->下一步 Step4.這有三大區塊,左下方是函數和變數的選擇區塊,右下方是函數的說明區塊,上方是函數輸入區塊。 在這我們用了2個函數SUBSTR和FIND,因為我們要從電話號碼中擷取部分的文字,而SUBSTR函數的用處就是擷取變數的部分字串,然而在電話號碼中的區碼有2碼也有3碼,所以我們需要FIND函數是要找尋某文字符號的位置來決定要截取的長度 用法: SUBSTR(字串或變數,截取起始位置,截取長度); FIND(字串或變數,”文字符號”) 以台北市跟南投縣的電話區域號碼為例(02)或(049) 截取的文字皆從第2個位置開始,截取長度我們利用找尋 “)” 位置的方法 FIND((02),”)”)=4 FIND((049),”)”)=5 所以我們可以利用FIND(t1.phone, ")")-2來決定長度 故我們最終的式子為: SUBSTR(t1.phone, 2, FIND(t1.phone, ")")-2) Step5.輸入欄名稱跟標籤後按完成 範例2:計算電話的長度 Step1.點選 Step2. 選擇進階運算式->下一步 Step3.藉由左下方是函數和變數的選擇區塊,輸入上方是函數輸入區塊,結果如下,後下一步。 電話的長度是全長扣掉區碼和符號的個數,用LENGTH((02)1234-5678)算出全部長度13,再利用FIND(t1.phone, ")")-2算出區碼的長度,再扣掉3個符號((,),-) 故我們最終的式子為: LENGTH(t1.phone)-(FIND(t1.phone, ")")-2)-3 Step4. 輸入欄名稱跟標籤後按完成 範例3.合併姓和名的兩個變數成為全名 Step1. 點選 Step2. 選擇進階運算式->下一步 Step3. 藉由左下方是函數和變數的選擇區塊,輸入上方是函數輸入區塊,結果如下,後下一步。 CATX("",t1.lname,t1.fname) Step4. 輸入欄名稱跟標籤後按完成 Step5.按執行 我們就可以得到我們所要的結果
在使用Enterprise Guide(EG)進行資料匯入/匯出前,須確認以下幾點注意事項: 確認使用的Office之版本,匯出之檔案必須Office 2007之後的版本。 確認sasv9.cfg檔案(檔案位於: C:Program FilesSASHomeSASFoundation9.3sasv9.cfg), 使用記事本開啟,確認其內容與下方一致。 -config "C:Program FilesSASHomeSASFoundation9.3nlsztsasv9.cfg"