文字歸類 - PTT網路論壇討論主題勘查

0
在現今網路資訊爆炸的時代,每天都有很多新的資訊湧入,PTT是台灣一個網路論壇,也是大學生常常發文討論的地方。Gossiping Board八卦板是PTT最熱門的看板,每天有將近2000篇的新文章,怎麼快速從這麼多的文章中看出大家在討論的主題?在此章節中將介紹SAS Text Miner「文字歸類」節點,這個模組可以將文章分成不同主題,且不同於「文字群集」節點每篇文章只能分到一群,同一篇文章是可能討論很多種不同主題的。
此範例資料是採用2014中華民國九合一選舉前一個禮拜 ( 2014/11/24~2014/11/28 ) 發文的文章,總計共7275篇文章。若想要快速將7275濃縮成25個主題,看哪些文章在討論哪些主題,透過「文字歸類」節點,可看出有1033篇文章在討論「吃、買、去、八卦、賣」這個主題;782篇在討論「連勝、文、哲、柯、票」這個主題...。

1
2
此章節流程圖:
3
1.     結果
歸類最主要的表格,可看見每個主題的相關資訊
-         類別Category:主題是由一個詞語組成、多個詞語組成、或是使用者自訂
-         文件截止值Document Cutoff、詞語截止值Term Cutoff:主題的文件、詞語截止值(將在後面文字歸類檢視器說明)
-         歸類Topic:五個代表主題的詞語
-         詞語的數目Number of Terms、文件數目#Doc:該主題內有幾個關鍵詞語及包含幾個文件
4
詞語詞語的資訊,包含角色、詞性、權重等資訊
-         WEIGHT:該詞語在所有文章中的權數
-         主題下的數值(ex:「吃,買,去,八卦,賣」欄位):該詞語在該主題下的權數
-         ( 其它欄位請參考「文字剖析」單元 )
5
文件的數目-依歸類每個主題所含的文件數目
6
詞語的數目-依歸類每個主題所含的詞語數目

7

2. 歸類檢視器
將文字歸類節點左方選項欄中的「歸類檢視器」點開,可以看到歸類、詞語、文件三個表格的結果;在第一個歸類表格選擇不同歸類,第二、三個表格會連帶跟著更動。並且可以手動調整結果。
8
 (1). 歸類
9
(2). 詞語
-         歸類權數:該詞語在該主題歸類下的權數
10
(3). 文件
-         歸類權數:該文件在該主題歸類下的權數
11
I. 三個表格的交互關係
下面以「竊聽,業者,檢,彭盛,韶」這個主題為例:
i.    詞語截止值為0.009可看到在「(2)詞語」表中只有|詞語權重|>=0.009時才會被歸到這個主題的詞語,而符合這樣條件的詞語有748個。
ii.  文件截止值為0.079可看到在「(3)文件」表中該主題下含括的文章權數都>=0.079,而符合這樣條件的文件有369個。
II. 手動調整
可以人工修改「(1)歸類」表和「(2)詞語」表的一些結果(下圖紅框部份),在更改後按右上角的「重新計算」便會看到更正的結果,藉此讓結果更接近使用者預期。
12
3.     使用者歸類
除了系統自己分類外,若使用者有想分的主題,也可藉由「使用者歸類」來達成,表格格式如下:「歸類」為主題名稱,「詞語」及「權數」分別代表該歸類下含有哪些詞語,權重分別是多少。
在選舉那段期間,網路上出現一個流行用語,別讓誰誰誰不開心,因此我們自訂了一個類別,含「別、讓、不、開心」詞語。
13
14

( 勘查by「文件篩選」節點 )

15
執行後可看到「別讓__不開心」這個主題已被加入,而且它的類別是「使用者」
16
17
使用者歸類中,文件截止值和詞語截止值預設是0.001,可在歸類檢視器中調整
18
4.     其他參數調整
19
I. 單一詞語歸類的數目:一個主題由一個詞語組成 (ex: 「柯」為一個主題) 的主題數目
20
II. 多重詞語歸類的數目:一個主題由多個詞語組成 (ex:「柯、哲、文、竊聽、蔡」為一個主
題) 的主題數目
21
III. 相互關聯的歸類:多重詞語的主題間是否要orthogonal正交還是主題間可以有相關連
 
5.     匯出的資料
22
23
Tags
Share

About Author

SAS Taiwan

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

Comments are closed.

Back to Top