文字剖析與篩選

當資料匯入後，接下來需要對文章的字詞做剖析以及一些轉換的動作，這個章節將會介紹「文字剖析」和「文字篩選」兩個節點如何達成這些事情。

此章節流程圖： (資料為754篇PTT基金板文章)

1. 文字剖析
將文字剖析節點連接資料集，並選好要分析文章的語言後，就可以對文字剖析節點按右鍵「執行」

(1). 結果
詞語：可看到詞語剖析後的資料，如表格「基金」這個詞語，它剖析結果是名詞，特性是Alpha，在所有文章中出現了1938次，有出現在511篇文章中，該詞語有被保留。有些詞語特性是混合，如「基金經理人」是「基金」和「經理人」合起來的名詞群組。

接下來以下四個圖形，都是根據以上「詞語」表格的欄位所做出來的統計圖

ZIPF圖：「變數numdocs的排名」對上「文件數目」

文件數目 – 依次數：「文件數目」對上「次數」

角色 – 依次數：「角色」對上「次數(加總)」

特性 – 依次數：「特性」對上「次數(加總)」

(2). 其它參數調整
「文字剖析」的結果如上所述，那麼它還能有哪些調整讓結果更好？以下是語言項目選擇英文及中文的預設選項：

I. 偵測
i. 不同的詞性：例如「付出」有時當動詞用有時當名詞用，是否要將其視為不同的字詞
ii. 名詞群組：要不要剖析出名詞群組，例如剛剛提到的「基金經理人」是否要被偵測出來
iii. 多重文字詞語：這個選項只有在英文才能選擇，中文並不行，如「a lot of」的”a”, “lot”, “of”三個詞語合起來其實是一個意思
iv. 尋找實體：搭配SAS Concept Creation可以做到自定義新詞，如「胖達人」為一個名詞
II. 忽略
忽略一些指定類型的詞語，例如忽略「感嘆詞」、「助動詞」等
III. 同義詞
i. 詞語詞幹：這個選項只有在英文才能選擇，英文「字根」若相同視為同義詞
ii. 同義字：可以將自己定義的同義詞SAS table匯入，格式如下所示。

在此例子中，若文章有出現「三星電子」或「samsung」都會被當成「三星」來分析計算。

IV、篩選
i. 啟用清單：只保留有在啟用清單內的詞語
ii. 停用清單：去掉在停用清單內的詞語

自定義的啟用、停用清單SAS table格式如下所示。

以下為加入停用清單( 1200個中文常用停用詞「的、是、有、也...」+標點符號 )，以及只留下名詞、動詞、專有名詞後的結果，可看到在停用清單內的字詞，「保留詞語」欄位從Y變成N；且只留下角色為名詞、動詞、專有名詞、名詞群組、標點符號的詞語。

2. 文字篩選
將文字篩選節點接在文字剖析節點之後，按右鍵「執行」。

(1). 結果
大致的輸出結果與文字剖析相同，多了刪除詞語或保留詞語的「狀態」以及詞語的「權數」
p13

(2). 篩選檢視器、文件篩選
將左側選項結果欄的「篩選檢視器」點開，可看到以下文件和詞語的結果。
(當篩選檢視器開啟時，流程圖畫布將被鎖定無法動作)
p14
p15
在尋找輸入「俄羅斯」後可以看到俄羅斯詞語，如上圖所示。

若對俄羅斯按右鍵「檢視概念連結」，可看到以下結果，連結的線越粗代表那個詞語與「俄羅斯」一起出現的機率更高，像是當指標指到「烏克蘭」時會出現「14/26」，分母26代表有出現「烏克蘭」的文章共有26篇；分子14代表同時有出現「俄羅斯」和「烏克蘭」的文章共有14篇。若在連續點烏克蘭兩下，可以再從烏克蘭連出去，看與烏克蘭常一起出現的詞語又是哪些。

若對俄羅斯按右鍵「將詞語增加到搜尋運算式中」再按套用，可以看見有包含俄羅斯的文章
p17

關閉篩選檢視器時，系統會問是否要儲存結果，若儲存，會發現左側文件篩選的「搜尋運算式」出現俄羅斯，代表它只會分析含有俄羅斯的文章。若要搜尋的不只一個詞語，可參考說明文件的「Text Filter Node Search Expressions」章節，將有更詳細的說明 (例如：「俄羅斯基金」是文章中有含俄羅斯或基金其中一者就可以，「+俄羅斯 +基金」則是文章必須同時包含兩者)

至於文件篩選的「子集文件」可以對文章做SQL WHERE條件的篩選，如篩選Date欄位中大於等於某個值的文件，或Title包含某個關鍵字的條件等。
p19

此外，在篩選檢視器中，也可以做同義詞的調整，例如我們認為動詞的投資和名詞的投資為同義詞，可將兩個詞與選取後按右鍵「視為同義詞」
p20

→ (按投資左邊的”+”可將同義詞內容展開。若要移除同義詞，對展開後的詞語按右鍵「移除同義字」)

(3). 其它參數調整
p22

I. 加權
i. 次數加權：有「對數」、「二元」、「無」 (可參考文件Frequency Weighting Methods章節)
ii. 詞語加權：詞語權重代表一個詞語的重要性，有「熵」、「反向文件次數」、「相互資訊」，權數隨著文件數目變化如下圖所示 (計算公式可參考文件Term Weighting Methods章節)[ 熵 ]
p23

[ 反向文件次數 ]
p24

[ 相互資訊 ]

II. 詞語篩選
文件最少數目為4，若小於4該詞語會被刪除

Blogs

Blogs

文字剖析與篩選

About Author