信效度分析- 驗證性因素分析(CFA) 根據「【系列5-1】問卷分析」所整理好的資料集或跟著「【系列5-2】製作圖表」接續來進行統計分析。 點選資料集上方選單【處理流程】即可回到流程圖
Chinese
根據「【系列5-1】問卷分析」所整理好的資料集來進行或繼續前面章節進行分析 回到流程圖→點選【QUERY_FOR_OUTCOME】→點選工具列【工作】→【迴歸】→【線性迴歸】。
十分感謝成功大學環境醫學所博士班候選人鄭雅勻熱心分享實作經驗範例~ 希望藉由此經驗分享讓您練就分析資料的功力!
十分感謝成功大學環境醫學所博士班候選人鄭雅勻熱心分享實作經驗範例~ 希望藉由此經驗分享讓您練就分析資料的功力!
前言檔案下載 >> https://goo.gl/oeF8Ay 教學檔案下載 >> https://goo.gl/MHVsV3
在現今網路資訊爆炸的時代,每天都有很多新的資訊湧入,PTT是台灣一個網路論壇,也是大學生常常發文討論的地方。Gossiping Board八卦板是PTT最熱門的看板,每天有將近2000篇的新文章,怎麼快速從這麼多的文章中看出大家在討論的主題?在此章節中將介紹SAS Text Miner「文字歸類」節點,這個模組可以將文章分成不同主題,且不同於「文字群集」節點每篇文章只能分到一群,同一篇文章是可能討論很多種不同主題的。 此範例資料是採用2014中華民國九合一選舉前一個禮拜 ( 2014/11/24~2014/11/28 ) 發文的文章,總計共7275篇文章。若想要快速將7275濃縮成25個主題,看哪些文章在討論哪些主題,透過「文字歸類」節點,可看出有1033篇文章在討論「吃、買、去、八卦、賣」這個主題;782篇在討論「連勝、文、哲、柯、票」這個主題...。
SAS Text Miner可探索隱藏在大量文字中的資訊。支援多種語言及檔案格式,並且提供豐富的語言與分析模型工具。將不同的非結構化文字片段、文件檔案庫及網頁下載內容,透過演算法自動識別出模式的各種主題,找出詞彙與片語間的顯著關聯。此軟體提供監督、無監督及半監督的方法來探索大量文件中過去未知的模式。
在此章節中,會有SAS Text Miner每個模組概觀性的功能介紹,以及運作的流程; 在往後的章節中,將有每個模組的詳細操作介紹。
當每篇文章有目標或類別時,我們可以藉由SAS Text Mining「文字規則產生器」節點來看不同目標的文字有沒有什麼規則可言。
當文章有不同類別層級,透過SAS Text Mining的「文字設定檔」節點可以看見每個類別的代表詞語,以及類別與類別間的一些關聯。
當TM跑出來的結果需要與SAS的其他軟體如EG、VA結合時,需要跑出來的結果表格,此時就需要知道表格在電腦中存放的位置。在下範例中,想知道文字群集節點的結果表格時,點選節點左側選項「匯出的資料」後會看到「表格」欄位,如下圖中的TRAIN表格,該表格就存在
在「文字剖析」單元曾提到可加入「停用清單」讓那些詞在後續的分析中不要使用,若已經用excel編好字詞清單或是已存成csv檔,以下步驟說明怎麼將它轉成SAS DATASET用以匯入TM。
如附錄1提到的檔案存放路徑,文字剖析的文字結果會存在: [ 專檔資料夾 ] / Workspaces / EMWS1(對應的流程圖) / textparsing_terms.sas7bdat 可藉由此表做一些篩選的動作篩選出blacklist的字詞,以下為幾個可能用到的函數: - KCOUNT(string):算string雙位元組字元的個數,可以看做算「中文」的字數 - LENGTH(string) :算string的長度 (含中英文符號等) - COUNT(string, substring):string裡包含substring的個數, ex: COUNT('基金贖回,「貝萊德中國基金」', '基金')=2
SAS Text Miner演算法跑出來的結果,以「文字歸類」為例,會輸出每篇文章對應到主題的分數,以及每篇文章是否屬於某主題的0/1值,這兩者當作新的變數加入預測模型,都有機會讓預測效果提升。
延續上篇介紹,在現實中想要建構出必須經過抽樣、分割樣本、補遺失值...等資料準備的程序,才能建構出好的模型。
在真實資料現況裡,分析資料並非完美無虞,往往會有許多資料品質上的問題,難以著手分析,尤其是 遺失值 (Missing value) 的問題在資料預處理階段更是常見處理議題。
本期開始Dr. SAS將會系列介紹如何運用SAS EM進行模型建置前的各項資料處理,首先將介紹Sample node的使用方法。在SAS EM建模方法論SEMMA的工作循環裡,SAS EM告訴我們分析的第一步驟即為進行Sample,這裡的sample代表著樣本資料與抽樣方法。在模型建置程序裡須取用的資料為樣本資料(sample data),而非母體的全體資料,同時取樣的樣本集必須具有母體代表性,如此模型才具有解釋意義,也才能真實被應用。
接續上期抽樣方法介紹,本期Dr.SAS將將繼續介紹在EM Sample node裡如何進行分群抽樣、分層抽樣,以及運用Sample node進行過度抽樣的方法。
抽樣的適當與否對於模型的準確性與可解釋性有很大的影響,因此抽樣設計在模型建置程序裡是很重要的研究議題,也因此Dr.SAS特闢系列專欄來詳細介紹抽樣方法與SAS EM sample node的各種抽樣方法的參數設定使用,希望各位讀者在詳加了解各種抽樣方法後,能適當的運用並將模型調整的更精緻。
Impute node遺失值補值的方法 本期將針對 Impute node 的各種方法的使用建議再做詳細說明: ■ 母體的統計量補值方法: 平均數(Mean)為最常用來做連續變數的補值方法,然而,平均數適用於對稱的鐘型分布(常態分布),若資料極右偏或左偏分布則不適用,平均數易受極值影響,可考慮用分群平均數來取代整體平均數。如以所得為例,資料有極值時,以區域別及年齡層進行群集區隔,以各群的所得平均來進行補值,相對整體平均值更具有參考解釋性。 考量平均數易受極端值影響的特性,除了分群平均數的方法處理外,亦可選擇使用Median(中位數)、Mid-Range(最大最小值平均值) 、截頭去尾平均值(Mid-Minimum Spacing)等方法來進行補值。其中,最大最小值平均值法為(最大值+最小值)/2,截頭去尾平均值法則為去除兩端n%的觀測值後,再取用Mid-Range。 另外,眾數法(Count)則以變數類別水準出現頻率最高的來補值,眾數法適用於類別資料的遺失值補值。 ■ 母體分布(Distribution): 依據母體真實資料分布的均數 μ 來進行補值。 ■ 利用資料探勘模型進行補值: 較精準的補值方法為採用資料探勘模型的方法來進行補值,EM提供決策樹(Tree)的方法,將遺失值欄位設定為目標變數,進行值的預測。通常針對重要具有模型影響性的變數,建議採用此法。 ■ 使用者自訂(Constant): 使用者亦可給予缺失值一個指定值,連續數值常設定為「0」、「99999」,類別數值則設為「N/A」。 ■ 不處理(None): 分析者可以選擇忽略遺漏值,不進行處理,交由後續模型演算方法來處理。 迴歸分析與類神經演算方法,遇到觀測值中欄位有缺失時,會自動忽略不計,所以無形之中會損失很多重要資訊,因此,缺失值的處理在迴歸分析或類神經相對重要,補值的方法就可以依上述所說的各種統計、資料探勘等方法來處理缺失值問題。決策樹則有自動處理的能力,遺失值可以獨立一個分支、或歸在最多分支、或最有相關的分支裡。 Impute node遺失值補值的案例說明 接續上期分析流程: (1) 準備群集分析資料集:SAMPSIO.HMEQ (2) 進行遺失值檢視 (3) 進行遺失值處理 至Modify工具頁籤下選取Impute Node與資料節點HMEQ串連,並進行對應參數設定。 圖一:Impute node的參數列 Impute node 針對類別變數(Class Variables)
資料探勘分析是一種科學方法,然而在資料處理與流程設計卻是門藝術。同一份資料集,不同的分析人員即便選用同一種分析工具,都極可能會產生不同的模型分析結果與應用方向,差異在於分析者對各資料解讀的深度、變數的選擇能力以及進一步的對資料處理的能力,資料處理中尤其以變數處理與衍生變數的產出,優秀的資料科學家就是在剖析問題的邏輯性與重要的衍生變數上勝出,這一階段的處理程序往往造就模型的準度與模型的精細解釋度。
Transform Variables node變數轉換的案例情境說明 變數轉換的資料處理,若資料有遺漏,建議先透過 Impute node 處理缺失值問題,再進行變數轉換的資料處理程序。
抽樣的適當與否對於模型的準確性與可解釋性有很大的影響,因此抽樣設計在模型建置程序裡是很重要的研究議題,也因此Dr.SAS特闢系列專欄來詳細介紹抽樣方法與SAS EM sample node的各種抽樣方法的參數設定使用,希望各位讀者在詳加了解各種抽樣方法後,能適當的運用並將模型調整的更精緻。