SAS Text Miner在處理文字時是以資料集中的一欄「文字」作為分析對象,若有多欄的角色都是文字,SAS Text Miner會自動判斷字數最多的那欄作為分析對象。若要修改,可在變數選項修改。
要將資料匯入的方式有以下兩種:
1. [從本機單一表格]
若已將文章處理成一個如上形式的SAS TABLE,可使用以下方法匯入資料:
(1). 檔案 → 新增 → 資料館
(2). 建立新的資料館 → 下一步
(3). 在「名稱」輸入資料館的名稱 (自行命名);在「路徑」選擇在電腦中放表格的資料夾,如此一來這個資料館下就會有資料夾下的這些表格 下一步
(4). 完成
(5). 在資料來源按右鍵 → 建立資料來源
(6). 資料來源精靈 – 除了第(2/8)步和第(5/8)步,直接選擇「下一步」即可
(7). (2/8) 瀏覽 → 選擇剛剛建立的資料館 → 選擇要匯入的表格 → 確定
(8). (5/8) 確認要分析的欄位角色為「文字」 → 下一步
(9). 資料來源匯入成功,可直接左鍵按著將表格拖拉到流程圖畫布
2. [從本機目錄]
若文章是一個一個檔案存在目錄中,可使用以下方法:
(1). 拖拉文字採礦模組下的「文字匯入」節點到畫布
(2). 設定文字匯入左側選項:匯入檔案目錄、語言、文字大小等
匯入檔案目錄:將要分析的文字檔案以一筆一筆的形式放到同一個目錄底下,SAS Text Miner支援多種格式,如txt文字檔、Word、Power Point、Excel、PDF...等格式,軟體都會先將這些檔案轉成.txt檔存入目的目錄,並處理成表格
語言:預設是英文,若分析的文章是中文,要記得修改
文字大小:文字大小預設是100,當每篇文章大小超過100字元 (約50個中文字),後面的字會自動截斷,可以調整的最大值為32767
(3). 對文字匯入節點按「右鍵→執行」,軟體就會將文字轉成資料集表格
(4). 查看建好的資料集:點選文字匯入節點→匯出的資料→選擇TRAIN→瀏覽
Tags