在此章節中,會有SAS Text Miner每個模組概觀性的功能介紹,以及運作的流程;
在往後的章節中,將有每個模組的詳細操作介紹。
在往後的章節中,將有每個模組的詳細操作介紹。
如需詳細資訊,也可以參考線上使用手冊《Getting Started with SAS Text Miner 13.2》
http://support.sas.com/documentation/onlinedoc/txtminer/index.html
http://support.sas.com/documentation/onlinedoc/txtminer/index.html
SAS Text Miner是SAS Enterprise Miner ( EM )的一個plug-in,底下包含七個模組,其中「文字匯入」是做資料集處理的模組;「文字剖析」、「文字篩選」是根據自然語言處理的模組;「文字歸類」、「文字群集」、「文字規則產生器」、「文字設定檔」則是進行分析演算法的模組。
Text Import node【文字匯入】
將指定資料夾下的檔案匯入,並自動將擷取文字的結果轉成資料集
將指定資料夾下的檔案匯入,並自動將擷取文字的結果轉成資料集
Text Parsing node【文字剖析】
將文字做斷詞、詞性等分析並計算詞語出現的次數以及詞語出現在幾篇文章中
將文字做斷詞、詞性等分析並計算詞語出現的次數以及詞語出現在幾篇文章中
Text Filter node【文字篩選】
篩選掉一些比較不重要的詞語,降低詞語數,增進文字分析效果及效率
篩選掉一些比較不重要的詞語,降低詞語數,增進文字分析效果及效率
Text Topic node【文字歸類】
自動將文字內容分類成數個主題,一篇文章可能被分到多個主題
自動將文字內容分類成數個主題,一篇文章可能被分到多個主題
Text Cluster node【文字群集】
將文字做分群,每篇文章將被分到某一群
將文字做分群,每篇文章將被分到某一群
Text Rule Builder node【文字規則產生器】
針對類別目標變數,產生不同類別的布林文字規則
( 文章需要有層級或類別目標 Ex:已經知道文章是不是「醫學類」或是「科學類」文章 )
針對類別目標變數,產生不同類別的布林文字規則
( 文章需要有層級或類別目標 Ex:已經知道文章是不是「醫學類」或是「科學類」文章 )
Text Profile node【文字設定檔】
找到能夠代表每一類目標變數的關聯詞語
( 文章需要有層級或類別目標 )
找到能夠代表每一類目標變數的關聯詞語
( 文章需要有層級或類別目標 )
跑SAS Text Miner流程最基本的模型就是四個節點,四個節點就可以跑出分析結果,流程如下述:
1. 將欲分析的文章整理好讓軟體讀入
2&3. 經由文字剖析、篩選找出重要的詞語
4. 再根據前一個節點挑選的詞語將文章自動做分群、主題歸類、探勘文章詞語規則等分析
2&3. 經由文字剖析、篩選找出重要的詞語
4. 再根據前一個節點挑選的詞語將文章自動做分群、主題歸類、探勘文章詞語規則等分析
SAS Text Miner Diagram:
[資料集] →[文字剖析] → [文字篩選] → [分析模型]
[資料集] →[文字剖析] → [文字篩選] → [分析模型]
因此要讓SAS Text Miner能夠run起來,一個最重要的因素就是資料集的匯入。前資料的處理及整理,有時並不是Text Miner就能做到,可能需要EG的輔助或是其他工具的幫忙。
另外,處理文字常常有編碼的問題,由於SAS通常預設是MS950編碼,若輸入的文字並非MS950,如簡體字等,可能造成資料無法匯入或是匯入文章像「亂碼」,這是文章在分析前需要處理好,並非Text Miner的處理範疇。若要修改整個環境的編碼,請參考FAQ Q1。
另外,處理文字常常有編碼的問題,由於SAS通常預設是MS950編碼,若輸入的文字並非MS950,如簡體字等,可能造成資料無法匯入或是匯入文章像「亂碼」,這是文章在分析前需要處理好,並非Text Miner的處理範疇。若要修改整個環境的編碼,請參考FAQ Q1。
當整個流程順利跑完,四個分析模型,大致能做到的事情如下所示:
由此可以看到,不管是哪個分析演算法,都是以「詞語」的集合來代表示結果,詞語是由前面文字剖析、文字篩選來的,所以在前一個步驟留下什麼詞語也會對分析有很大的影響,要有好的結果還是需要有些人工篩選的動作,否則Garbage in, garbage out。
Tags