【附錄】匯出的資料匯存在電腦的哪裡
當TM跑出來的結果需要與SAS的其他軟體如EG、VA結合時,需要跑出來的結果表格,此時就需要知道表格在電腦中存放的位置。在下範例中,想知道文字群集節點的結果表格時,點選節點左側選項「匯出的資料」後會看到「表格」欄位,如下圖中的TRAIN表格,該表格就存在
當TM跑出來的結果需要與SAS的其他軟體如EG、VA結合時,需要跑出來的結果表格,此時就需要知道表格在電腦中存放的位置。在下範例中,想知道文字群集節點的結果表格時,點選節點左側選項「匯出的資料」後會看到「表格」欄位,如下圖中的TRAIN表格,該表格就存在
在「文字剖析」單元曾提到可加入「停用清單」讓那些詞在後續的分析中不要使用,若已經用excel編好字詞清單或是已存成csv檔,以下步驟說明怎麼將它轉成SAS DATASET用以匯入TM。
如附錄1提到的檔案存放路徑,文字剖析的文字結果會存在: [ 專檔資料夾 ] / Workspaces / EMWS1(對應的流程圖) / textparsing_terms.sas7bdat 可藉由此表做一些篩選的動作篩選出blacklist的字詞,以下為幾個可能用到的函數: - KCOUNT(string):算string雙位元組字元的個數,可以看做算「中文」的字數 - LENGTH(string) :算string的長度 (含中英文符號等) - COUNT(string, substring):string裡包含substring的個數, ex: COUNT('基金贖回,「貝萊德中國基金」', '基金')=2