Author

SAS Taiwan
RSS

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

SAS Taiwan 0
文字剖析與篩選

當資料匯入後,接下來需要對文章的字詞做剖析以及一些轉換的動作,這個章節將會介紹「文字剖析」和「文字篩選」兩個節點如何達成這些事情。

SAS Taiwan 0
開始進行文字分析

SAS Text Miner在處理文字時是以資料集中的一欄「文字」作為分析對象,若有多欄的角色都是文字,SAS Text Miner會自動判斷字數最多的那欄作為分析對象。若要修改,可在變數選項修改。

SAS Taiwan 0
文字歸類 - PTT網路論壇討論主題勘查

在現今網路資訊爆炸的時代,每天都有很多新的資訊湧入,PTT是台灣一個網路論壇,也是大學生常常發文討論的地方。Gossiping Board八卦板是PTT最熱門的看板,每天有將近2000篇的新文章,怎麼快速從這麼多的文章中看出大家在討論的主題?在此章節中將介紹SAS Text Miner「文字歸類」節點,這個模組可以將文章分成不同主題,且不同於「文字群集」節點每篇文章只能分到一群,同一篇文章是可能討論很多種不同主題的。 此範例資料是採用2014中華民國九合一選舉前一個禮拜 ( 2014/11/24~2014/11/28 ) 發文的文章,總計共7275篇文章。若想要快速將7275濃縮成25個主題,看哪些文章在討論哪些主題,透過「文字歸類」節點,可看出有1033篇文章在討論「吃、買、去、八卦、賣」這個主題;782篇在討論「連勝、文、哲、柯、票」這個主題...。

SAS Taiwan 0
Text Miner是什麼

SAS Text Miner可探索隱藏在大量文字中的資訊。支援多種語言及檔案格式,並且提供豐富的語言與分析模型工具。將不同的非結構化文字片段、文件檔案庫及網頁下載內容,透過演算法自動識別出模式的各種主題,找出詞彙與片語間的顯著關聯。此軟體提供監督、無監督及半監督的方法來探索大量文件中過去未知的模式。

SAS Taiwan 0
【附錄】匯出的資料匯存在電腦的哪裡

當TM跑出來的結果需要與SAS的其他軟體如EG、VA結合時,需要跑出來的結果表格,此時就需要知道表格在電腦中存放的位置。在下範例中,想知道文字群集節點的結果表格時,點選節點左側選項「匯出的資料」後會看到「表格」欄位,如下圖中的TRAIN表格,該表格就存在

SAS Taiwan 0
【附錄】利用文字剖析結果以利製作blacklist

如附錄1提到的檔案存放路徑,文字剖析的文字結果會存在: [ 專檔資料夾 ] / Workspaces / EMWS1(對應的流程圖) / textparsing_terms.sas7bdat 可藉由此表做一些篩選的動作篩選出blacklist的字詞,以下為幾個可能用到的函數: -         KCOUNT(string):算string雙位元組字元的個數,可以看做算「中文」的字數 -         LENGTH(string) :算string的長度 (含中英文符號等) -         COUNT(string, substring):string裡包含substring的個數, ex: COUNT('基金贖回,「貝萊德中國基金」', '基金')=2

SAS Taiwan 0
如何運用SAS EM進行各式抽樣及過度抽樣(上)

本期開始Dr. SAS將會系列介紹如何運用SAS EM進行模型建置前的各項資料處理,首先將介紹Sample node的使用方法。在SAS EM建模方法論SEMMA的工作循環裡,SAS EM告訴我們分析的第一步驟即為進行Sample,這裡的sample代表著樣本資料與抽樣方法。在模型建置程序裡須取用的資料為樣本資料(sample data),而非母體的全體資料,同時取樣的樣本集必須具有母體代表性,如此模型才具有解釋意義,也才能真實被應用。

SAS Taiwan 0
如何運用SAS EM進行各式抽樣及過度抽樣(下)

抽樣的適當與否對於模型的準確性與可解釋性有很大的影響,因此抽樣設計在模型建置程序裡是很重要的研究議題,也因此Dr.SAS特闢系列專欄來詳細介紹抽樣方法與SAS EM sample node的各種抽樣方法的參數設定使用,希望各位讀者在詳加了解各種抽樣方法後,能適當的運用並將模型調整的更精緻。

1 3 4 5 6 7 9