SAS Taiwan

SAS TaiwanFebruary 25, 2020 0

開始進行文字分析

SAS Text Miner在處理文字時是以資料集中的一欄「文字」作為分析對象，若有多欄的角色都是文字，SAS Text Miner會自動判斷字數最多的那欄作為分析對象。若要修改，可在變數選項修改。

Chinese

SAS TaiwanFebruary 25, 2020 0

文字剖析與篩選

當資料匯入後，接下來需要對文章的字詞做剖析以及一些轉換的動作，這個章節將會介紹「文字剖析」和「文字篩選」兩個節點如何達成這些事情。

Chinese

SAS TaiwanFebruary 25, 2020 0

文字歸類 - PTT網路論壇討論主題勘查

在現今網路資訊爆炸的時代，每天都有很多新的資訊湧入，PTT是台灣一個網路論壇，也是大學生常常發文討論的地方。Gossiping Board八卦板是PTT最熱門的看板，每天有將近2000篇的新文章，怎麼快速從這麼多的文章中看出大家在討論的主題？在此章節中將介紹SAS Text Miner「文字歸類」節點，這個模組可以將文章分成不同主題，且不同於「文字群集」節點每篇文章只能分到一群，同一篇文章是可能討論很多種不同主題的。此範例資料是採用2014中華民國九合一選舉前一個禮拜 ( 2014/11/24~2014/11/28 ) 發文的文章，總計共7275篇文章。若想要快速將7275濃縮成25個主題，看哪些文章在討論哪些主題，透過「文字歸類」節點，可看出有1033篇文章在討論「吃、買、去、八卦、賣」這個主題；782篇在討論「連勝、文、哲、柯、票」這個主題...。

Chinese

SAS TaiwanFebruary 25, 2020 0

文字規則產生器 – 找尋垃圾郵件的文字規則

當每篇文章有目標或類別時，我們可以藉由SAS Text Mining「文字規則產生器」節點來看不同目標的文字有沒有什麼規則可言。

Chinese

SAS TaiwanFebruary 25, 2020 0

文字設定檔 – 不同類別的蘋果日報新聞關聯

當文章有不同類別層級，透過SAS Text Mining的「文字設定檔」節點可以看見每個類別的代表詞語，以及類別與類別間的一些關聯。

Chinese

SAS TaiwanFebruary 25, 2020 0

【附錄】匯出的資料匯存在電腦的哪裡

當TM跑出來的結果需要與SAS的其他軟體如EG、VA結合時，需要跑出來的結果表格，此時就需要知道表格在電腦中存放的位置。在下範例中，想知道文字群集節點的結果表格時，點選節點左側選項「匯出的資料」後會看到「表格」欄位，如下圖中的TRAIN表格，該表格就存在

Chinese

SAS TaiwanFebruary 25, 2020 0

【附錄】blacklist製作 – 利用EG將csv或excel檔轉成SAS DATASET

在「文字剖析」單元曾提到可加入「停用清單」讓那些詞在後續的分析中不要使用，若已經用excel編好字詞清單或是已存成csv檔，以下步驟說明怎麼將它轉成SAS DATASET用以匯入TM。

Chinese

SAS TaiwanFebruary 25, 2020 0

【附錄】利用文字剖析結果以利製作blacklist

如附錄1提到的檔案存放路徑，文字剖析的文字結果會存在： [ 專檔資料夾 ] / Workspaces / EMWS1(對應的流程圖) / textparsing_terms.sas7bdat 可藉由此表做一些篩選的動作篩選出blacklist的字詞，以下為幾個可能用到的函數： - KCOUNT(string)：算string雙位元組字元的個數，可以看做算「中文」的字數 - LENGTH(string) ：算string的長度 (含中英文符號等) - COUNT(string, substring)：string裡包含substring的個數， ex: COUNT('基金贖回，「貝萊德中國基金」', '基金')=2

Chinese