第一次用Text Miner就上手

在此章節中，會有SAS Text Miner每個模組概觀性的功能介紹，以及運作的流程；
在往後的章節中，將有每個模組的詳細操作介紹。

如需詳細資訊，也可以參考線上使用手冊《Getting Started with SAS Text Miner 13.2》
http://support.sas.com/documentation/onlinedoc/txtminer/index.html

SAS Text Miner是SAS Enterprise Miner ( EM )的一個plug-in，底下包含七個模組，其中「文字匯入」是做資料集處理的模組；「文字剖析」、「文字篩選」是根據自然語言處理的模組；「文字歸類」、「文字群集」、「文字規則產生器」、「文字設定檔」則是進行分析演算法的模組。

Text Import node【文字匯入】
將指定資料夾下的檔案匯入，並自動將擷取文字的結果轉成資料集

Text Parsing node【文字剖析】
將文字做斷詞、詞性等分析並計算詞語出現的次數以及詞語出現在幾篇文章中

Text Filter node【文字篩選】
篩選掉一些比較不重要的詞語，降低詞語數，增進文字分析效果及效率

Text Topic node【文字歸類】
自動將文字內容分類成數個主題，一篇文章可能被分到多個主題

Text Cluster node【文字群集】
將文字做分群，每篇文章將被分到某一群

Text Rule Builder node【文字規則產生器】
針對類別目標變數，產生不同類別的布林文字規則
( 文章需要有層級或類別目標 Ex:已經知道文章是不是「醫學類」或是「科學類」文章 )

Text Profile node【文字設定檔】
找到能夠代表每一類目標變數的關聯詞語
( 文章需要有層級或類別目標 )

跑SAS Text Miner流程最基本的模型就是四個節點，四個節點就可以跑出分析結果，流程如下述：

1. 將欲分析的文章整理好讓軟體讀入
2&3. 經由文字剖析、篩選找出重要的詞語
4. 再根據前一個節點挑選的詞語將文章自動做分群、主題歸類、探勘文章詞語規則等分析

SAS Text Miner Diagram：
[資料集] →[文字剖析] → [文字篩選] → [分析模型]

因此要讓SAS Text Miner能夠run起來，一個最重要的因素就是資料集的匯入。前資料的處理及整理，有時並不是Text Miner就能做到，可能需要EG的輔助或是其他工具的幫忙。
另外，處理文字常常有編碼的問題，由於SAS通常預設是MS950編碼，若輸入的文字並非MS950，如簡體字等，可能造成資料無法匯入或是匯入文章像「亂碼」，這是文章在分析前需要處理好，並非Text Miner的處理範疇。若要修改整個環境的編碼，請參考FAQ Q1。

當整個流程順利跑完，四個分析模型，大致能做到的事情如下所示：

由此可以看到，不管是哪個分析演算法，都是以「詞語」的集合來代表示結果，詞語是由前面文字剖析、文字篩選來的，所以在前一個步驟留下什麼詞語也會對分析有很大的影響，要有好的結果還是需要有些人工篩選的動作，否則Garbage in, garbage out。

Blogs

Blogs

第一次用Text Miner就上手

About Author