SAS Text Miner在處理文字時是以資料集中的一欄「文字」作為分析對象,若有多欄的角色都是文字,SAS Text Miner會自動判斷字數最多的那欄作為分析對象。若要修改,可在變數選項修改。
![p1 p1](https://blogs.sas.com/content/sastaiwan/files/2020/02/54acce8fbebd1.png)
要將資料匯入的方式有以下兩種:
1. [從本機單一表格]
若已將文章處理成一個如上形式的SAS TABLE,可使用以下方法匯入資料:
(1). 檔案 → 新增 → 資料館
![p2 p2](https://blogs.sas.com/content/sastaiwan/files/2020/02/54acce930306e.png)
(2). 建立新的資料館 → 下一步
![p3 p3](https://blogs.sas.com/content/sastaiwan/files/2020/02/54acce95aac8e.png)
(3). 在「名稱」輸入資料館的名稱 (自行命名);在「路徑」選擇在電腦中放表格的資料夾,如此一來這個資料館下就會有資料夾下的這些表格 下一步
![p4 p4](https://blogs.sas.com/content/sastaiwan/files/2020/02/54acce99cdd0c.png)
(4). 完成
![p5 p5](https://blogs.sas.com/content/sastaiwan/files/2020/02/54acce9ccd656.png)
(5). 在資料來源按右鍵 → 建立資料來源
![p6 p6](https://blogs.sas.com/content/sastaiwan/files/2020/02/54acce9fded65.png)
(6). 資料來源精靈 – 除了第(2/8)步和第(5/8)步,直接選擇「下一步」即可
(7). (2/8) 瀏覽 → 選擇剛剛建立的資料館 → 選擇要匯入的表格 → 確定
![p7 p7](https://blogs.sas.com/content/sastaiwan/files/2020/02/54accea37b30f.png)
(8). (5/8) 確認要分析的欄位角色為「文字」 → 下一步
![p8 p8](https://blogs.sas.com/content/sastaiwan/files/2020/02/54accea59045a.png)
(9). 資料來源匯入成功,可直接左鍵按著將表格拖拉到流程圖畫布
![p9 p9](https://blogs.sas.com/content/sastaiwan/files/2020/02/54accea878a34.png)
2. [從本機目錄]
若文章是一個一個檔案存在目錄中,可使用以下方法:
(1). 拖拉文字採礦模組下的「文字匯入」節點到畫布
![p10 p10](https://blogs.sas.com/content/sastaiwan/files/2020/02/54acceaabd94a.png)
(2). 設定文字匯入左側選項:匯入檔案目錄、語言、文字大小等
![p11 p11](https://blogs.sas.com/content/sastaiwan/files/2020/02/54accead481bc.png)
匯入檔案目錄:將要分析的文字檔案以一筆一筆的形式放到同一個目錄底下,SAS Text Miner支援多種格式,如txt文字檔、Word、Power Point、Excel、PDF...等格式,軟體都會先將這些檔案轉成.txt檔存入目的目錄,並處理成表格
語言:預設是英文,若分析的文章是中文,要記得修改
文字大小:文字大小預設是100,當每篇文章大小超過100字元 (約50個中文字),後面的字會自動截斷,可以調整的最大值為32767
(3). 對文字匯入節點按「右鍵→執行」,軟體就會將文字轉成資料集表格
(4). 查看建好的資料集:點選文字匯入節點→匯出的資料→選擇TRAIN→瀏覽
![p13 p13](https://blogs.sas.com/content/sastaiwan/files/2020/02/54acceb34a161.png)
Tags