在往後的章節中,將有每個模組的詳細操作介紹。
http://support.sas.com/documentation/onlinedoc/txtminer/index.html

將指定資料夾下的檔案匯入,並自動將擷取文字的結果轉成資料集
將文字做斷詞、詞性等分析並計算詞語出現的次數以及詞語出現在幾篇文章中
篩選掉一些比較不重要的詞語,降低詞語數,增進文字分析效果及效率
自動將文字內容分類成數個主題,一篇文章可能被分到多個主題
將文字做分群,每篇文章將被分到某一群
針對類別目標變數,產生不同類別的布林文字規則
( 文章需要有層級或類別目標 Ex:已經知道文章是不是「醫學類」或是「科學類」文章 )
找到能夠代表每一類目標變數的關聯詞語
( 文章需要有層級或類別目標 )
跑SAS Text Miner流程最基本的模型就是四個節點,四個節點就可以跑出分析結果,流程如下述:
2&3. 經由文字剖析、篩選找出重要的詞語
4. 再根據前一個節點挑選的詞語將文章自動做分群、主題歸類、探勘文章詞語規則等分析
[資料集] →[文字剖析] → [文字篩選] → [分析模型]

另外,處理文字常常有編碼的問題,由於SAS通常預設是MS950編碼,若輸入的文字並非MS950,如簡體字等,可能造成資料無法匯入或是匯入文章像「亂碼」,這是文章在分析前需要處理好,並非Text Miner的處理範疇。若要修改整個環境的編碼,請參考FAQ Q1。



