【附錄】blacklist製作 – 利用EG將csv或excel檔轉成SAS DATASET
在「文字剖析」單元曾提到可加入「停用清單」讓那些詞在後續的分析中不要使用,若已經用excel編好字詞清單或是已存成csv檔,以下步驟說明怎麼將它轉成SAS DATASET用以匯入TM。
在「文字剖析」單元曾提到可加入「停用清單」讓那些詞在後續的分析中不要使用,若已經用excel編好字詞清單或是已存成csv檔,以下步驟說明怎麼將它轉成SAS DATASET用以匯入TM。
SAS Text Miner演算法跑出來的結果,以「文字歸類」為例,會輸出每篇文章對應到主題的分數,以及每篇文章是否屬於某主題的0/1值,這兩者當作新的變數加入預測模型,都有機會讓預測效果提升。
延續上篇介紹,在現實中想要建構出必須經過抽樣、分割樣本、補遺失值...等資料準備的程序,才能建構出好的模型。