
將文字剖析節點連接資料集,並選好要分析文章的語言後,就可以對文字剖析節點按右鍵「執行」

詞語: 可看到詞語剖析後的資料,如表格「基金」這個詞語,它剖析結果是名詞,特性是Alpha,在所有文章中出現了1938次,有出現在511篇文章中,該詞語有被保留。有些詞語特性是混合,如「基金經理人」是「基金」和「經理人」合起來的名詞群組。
接下來以下四個圖形,都是根據以上「詞語」表格的欄位所做出來的統計圖

角色 – 依次數: 「角色」對上「次數(加總)」
特性 – 依次數: 「特性」對上「次數(加總)」

「文字剖析」的結果如上所述,那麼它還能有哪些調整讓結果更好?以下是語言項目選擇英文及中文的預設選項:

i. 不同的詞性:例如「付出」有時當動詞用有時當名詞用,是否要將其視為不同的字詞
ii. 名詞群組:要不要剖析出名詞群組,例如剛剛提到的「基金經理人」是否要被偵測出來
iii. 多重文字詞語:這個選項只有在英文才能選擇,中文並不行,如「a lot of」的”a”, “lot”, “of”三個詞語合起來其實是一個意思
iv. 尋找實體:搭配SAS Concept Creation可以做到自定義新詞,如「胖達人」為一個名詞
II. 忽略
忽略一些指定類型的詞語,例如忽略「感嘆詞」、「助動詞」等
III. 同義詞
i. 詞語詞幹:這個選項只有在英文才能選擇,英文「字根」若相同視為同義詞
ii. 同義字:可以將自己定義的同義詞SAS table匯入,格式如下所示。

i. 啟用清單:只保留有在啟用清單內的詞語
ii. 停用清單:去掉在停用清單內的詞語



將文字篩選節點接在文字剖析節點之後,按右鍵「執行」。
大致的輸出結果與文字剖析相同,多了刪除詞語或保留詞語的「狀態」以及詞語的「權數」

(2). 篩選檢視器、文件篩選
將左側選項結果欄的「篩選檢視器」點開,可看到以下文件和詞語的結果。
(當篩選檢視器開啟時,流程圖畫布將被鎖定無法動作)
在尋找輸入「俄羅斯」後可以看到俄羅斯詞語,如上圖所示。





→ (按投資左邊的”+”可將同義詞內容展開。若要移除同義詞,對展開後的詞語按右鍵「移除同義字」)


i. 次數加權:有「對數」、「二元」、「無」 (可參考文件Frequency Weighting Methods章節)
ii. 詞語加權:詞語權重代表一個詞語的重要性,有「熵」、「反向文件次數」、「相互資訊」,權數隨著文件數目變化如下圖所示 (計算公式可參考文件Term Weighting Methods章節)[ 熵 ]

[ 反向文件次數 ]

[ 相互資訊 ]

文件最少數目為4,若小於4該詞語會被刪除
