當文章有不同類別層級,透過SAS Text Mining的「文字設定檔」節點可以看見每個類別的代表詞語,以及類別與類別間的一些關聯。
在此範例中使用2014/11/01~2015/01/22蘋果日報網站共24308則文章,蘋果日報網站中有多個新聞分類,每篇新聞都會歸在一個類別下,我們接下來要來分析這些有類別的新聞文章,看不同類別新聞間有什麼差異,各類別新聞的關聯詞語又是哪些。如「金融專題」類新聞的關聯詞語有「銀、銀行、中信、人民幣、辜、車、外匯、存底」;而「籃球瘋」類新聞有「分、kobe、湖人、場、豪、書、季、勝」,且「籃球瘋」類新聞與「體育焦點」類新聞有高度的相似性。
此章節流程圖:
在「文字設定檔」節點中,需要有目標角色的變數,又依照目標是否是時間變數而有不同的設定
- 第一個流程圖的「目標」為新聞類別 (類別如上列表)
- 第二個流程圖的「目標」為日期,且文字篩選節點篩選出新聞中有出現柯文哲的新聞
1. 結果 (目標角色非時間間隔,流程圖1)
設定變數:描述不同目標類別的詞語,以及該類別的文章次數
Belief-依值:詞語在類別中的Belief值,Belief越高代表該詞語在該類別中越重要
在此範例中,由於目標有46類別,超過系統能顯示的上限,會出現如上圖的顯示「X和Y直條的組合超過上限」;因此將類別改成較大的分類,只有8個類別,結果如下圖所示。
目標分配:每個類別佔的比例圓餅圖
目標相似性:類別之間的相似性
連線的粗細代表兩者相似性的高低,線越粗兩個類別有越高的相似性。
圖形下方有可以拉動的捲軸,越多%時圖會留下越重要的連結,如當上51%的時候只留下以下連結:
「籃球瘋-體育焦點」、「頭條-娛樂名人」、「頭條-生活」、「娛樂名人-生活」、「娛樂名人-名人時尚」、「金融保險-金融專題」、「法庭-社會」、「投資理財-綜合產業」、「政治-要聞」
2. 結果 (目標角色是時間間隔,流程圖2)
若目標角色為時間間隔,在「日期等距分箱間隔」可以設定以怎樣的時間單位長短來做分析。在這裡由於新聞時間橫跨201411-201501,因此是選擇「每星期」的設定。
選項:每小時 / 每天 / 每星期 / 每月 / 每年
設定變數:描述不同目標類別的詞語 (2014-W51代表2014年的第51個星期)
詞語時間序列:特定時間區間內 (下面例子為2014-W51) 詞語與時間的關係
目標相似性:類別之間的相似性
目標分配:每個類別佔的比例圓餅圖
3. 匯出的資料
Tags