文字群集 – 將2013 KDD paper做分群分析

0
SAS Text Miner有一個主要功能就是能幫文章做分群,在這章節將介紹「文字群集」模組。

在此範例中資料是335個2013 KDD paper的PDF檔。ACM SIGKDD Conference on Knowledge Discovery and Data Mining是一個資料探勘領域有名的國際會議,每年會有不同的論文發表,每年內容也會隨這個領域發展而有所不同。若想快速看到某一年中的論文都是什麼內容,可以分成哪幾大群文章,便可使用「文字群集」這個節點。可看到有177篇文章是分在「networks values random algorithms full international…」這個群集;47篇是分在「social likely networks keywords…」內。
1
接下來將對2013年度會議的文章做分群的分析。
2
此章節流程圖:
3
在此處「文字匯入」節點的設定「文字大小」為30000,因此會匯入整篇論文,使用者可以自行選擇若是設定小一點,那就只會匯入論文中前面的內容,可以當作snippet來用,也能增加效率。
( 文字匯入PDF檔,可能有文件編碼和當前環境不同或保全問題,可以參考FAQ的Q1和Q6 )
在SAS Text Miner的文字群集中提供兩種群集演算法,一種是「期望值最大化」,另一種則是「階層式」。在結果方面會有以下幾個圖表,而Cluster Hierarchy以及Hierarchy Data兩個圖表是只有「階層式」演算法才會有的圖表。
 
1.     結果
群集這個表格為分群的主要結果,有下列資訊
-         Descriptive Terms:每一群的代表詞語,詞語數目在參數中可調整
-         Frequency:這一群中有幾篇文章
-         Coordinate:SVD分解的結果
-         RMS Std:每一群的均方根差
-         X Y:轉到二維空間的X Y座標值
4
5
Distance Between Clusters:XY座標圖,每一點代表一群
6
Cluster Frequencies:由Frequency結果做出來的圓餅圖
7
Cluster Frequency by RMS:「 Frequency」對上「RMS Std」作圖
8
若群集演算法為「階層式」,那麼結果除了有上述的四種圖表呈現外,還會有以下的兩個圖表,且同樣的資料「階層式」與「期望值最大化」演算法跑出來的結果會不一樣:
Cluster Hierarchy
9
Hierarchy Data
10
群集(階層式演算法的結果)
11
2.     其他參數調整
12
I. 轉換
做SVD分解時的維度設定。預設解析度為「低」,在前結果中可看到有Coordinate1-45,共45個維度;若改成「高」,可看到以下結果,這裡100個維度剛好是到達設定「最大SVD維度」。
13
II. 群集
i .描述性詞語:代表一群是要以幾個代表詞來表示。
ii. 群集的數目:在做分群分析時,需要設定要分幾群。
iii. 精確或最大數目:用群集的數目設定為40來說明,「精確」是指在分群時要最好剛剛好
分成40群;「最大值」是指最多可以分40群在這個範圍內由演算法判斷。
系統預設「精確或最大數目」欄位是「最大值」,群集的數目為40,在此例子中共分成了8群,若將「精確或最大數目」欄位改成「精確」會分成38群,如下表所示,比前面結果分得更細,是更微觀的結果。群集數目可依照文章數目及性質來做調整。
14
3.     匯出的資料
15
16
17
Tags
Share

About Author

SAS Taiwan

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

Comments are closed.

Back to Top