用EG幫你寫論文 ,事半功倍,加速畢業![系列4-1]資料處理

0
寫論文一定會做問卷,但好不容易搜集來的問卷,到底要怎麼統計才能找出結果呢?
本系列第一篇,要教大家 一 問卷資料的處理

高等教育普及是近年來的趨勢,由教育部統計處的統計資料中發現,近十年來,台灣地區研究生的數量增加近一倍。在社會科學的領域中,很多的研究生並沒有修習過統計學,連統計軟體也沒有碰過,但是,論文是畢業的門檻,又要做統計分析的工作,不是請別人操刀,就是採用錯誤的分析方法,因此,如何幫助研究生以正確的統計方法來完成一篇碩士論文,實乃一重要課題。本文將以研究量表做為調查工具,以SAS公司所研發的Enterprise Guide(簡稱EG)做為分析工具,來介紹如何以EG來完成碩士生有關量表的分析工作。

一、 資料的編碼與建檔

本研究問卷有五大部分,共計45個問題。第一部分為消費者特性,共有性別、年齡層與教育程度等3個變數,分別以變數K1、K2與K3表示。在資料的編碼上,就性別而言,男性以1表示,女性以2表示;就年齡層而言﹐20-24歲以1表示,25-29歲以2表示,30-34歲以3表示,35-39歲以4表示;就教育程度而言,國中以下(含)以1表示,高中職以2表示,專科以3表示,大學以4表示,研究所以5表示。第二部分為「創新接受程度」量表,共有12個問項,分別以A1、A2、……與A12表示。第三部份為「產品創新屬性」量表,共有9個問項,分別以B1、B2、……與B9表示。第四部份為「消費者知識」量表,共有11個問項,分別以C1、C2、……與C11表示。第五部份為「購買意願」量表,共有10個問項,分別以D1、D2、……與D10表示。第二部分至第五部分的四個量表給分方式為非常同意給5分、同意給4分、普通給3分、不同意給2分、非常不同意給1分。在上述資料的編碼格式下,以EXCEL軟體建立資料檔MerryInsurance.xls的部分資料如表1-1所示︰
單元一 資料處理01

下載資料檔

二、 Excel資料檔的匯入

在前面,我們已經說明過資料的編碼與建檔方式後,如何將已經建立好的Excel資料檔匯入後,轉換成SAS的資料集,EG提供了匯入資料檔的精靈讓我們可以很順利的完成資料檔的匯入。

EG操作

三、 變數值格式的定義

前面在說明資料匯入時如何定義各變數的輸出標籤,例如:K1定義的輸出標籤為「性別」,K2定義的輸出標籤為「年齡」,K3定義的輸出標籤為「教育程度」……,D9 定義的輸出標籤為「我購買結婚綜合保險商品的原因是因承保項目多元化」,D10 定義的輸出標籤為「我認為結婚綜合保險商品滿足了我對於保險的需求」。至於,各變數值的輸出格式,如何定義呢?例如:就變數K1的値(1或2)而言,如何定義K1的值為1時,輸出格式為「男」,K1的值為2時,輸出格式為「女」,各變數數值欲輸出的格式如下:
表1-2 變數的標籤與輸出格式
變數
變數的標籤
資料編碼的値
數值的輸出格式
K1
性別
1
2
K2
年齡
1
20-24歲
2
25-29歲
3
30-34歲
4
35-39歲
K3
教育程度
1
國(初)中以下(含)
2
高中(職)
3
專科
4
大學
5
研究所
A1-A12
B1-B9
C1-C11
D1-D10
量表的問題
1
非常不同意
2
不同意
3
普通
4
同意
5
非常同意

EG操作

四、 匯入資料的檢核

當我們將資料匯入,並定義好各變數的輸出標籤與變數數值的輸出格式後,接下來就要檢核所匯入的資料是否有誤?例如:性別(K1)的數值是否只有1或2等兩類,年齡層的數值是否只有1、2、3或4等四類,教育程度的數值是否只有1、2、3、4或5等五類,所有量表變數(A1-A12,B1-B9,C1-C11,D1-D10) 的數值是否只有1、2、3、4或5等五類。如果發現這些變數的値有誤,則必須回原來的Excel資料檔去更正後,再來執行專案。在下表左方試錯誤的資料,變數K1出現「3」的數值,變數K2出現「5」與「23」的數值,很明顯這些資料都有誤,因此,須回原始資料修改後再行處理。
單元一 資料處理07

EG操作

五、反向記分題的資料轉換

由於本研究問卷設有反向計分題,分別是第二部份「創新接受程度」量表的「A2:我不喜歡嘗試各種新發明與新觀念」與「A11:我很不容易接受新的觀念」,第三部份為「產品創新屬性」量表的「B5:創新產險商品不會讓我覺得物超所值」,第四部份「消費者知識」量表的「C3:在選擇創新商品時,我無法清楚說出各產品屬性的重要性」與「C7:我比別人更不了解各種創新產險商品的資訊」,第五部份「購買意願」量表的「D4:我不會在業務員解說後立即購買結婚綜合保險」與「D6:保險公司誠實經營信用佳不是我購買結婚綜合保險的原因」。故在進行分析前,必須將這些變數的值進行資料轉換,原先5分的資料要轉換為1分,4分的資料要轉換為2分,3分的資料不動,2分的資料要轉換為4分,1分的資料要轉換為5分。應該要將這7個變數A2、A11、B5、C3、C7、D4與D6分別用6減去原來的數值,即使用下列的運算式來進行重新運算:
A2=6-A2
A11=6-A11
B6=6-B5
C3=6-C3
C11=6-C11
D4=6-D4
D6=6-D6
這些反向記分題原先建檔資料轉換前與轉換後的資料(部分資料)如下:
單元一 資料處理10

EG操作

六、 樣本結構的檢定

表1-3 樣本結構
變數
人數
百分比(%)
合 計
390
100.00
性別
200
51.28
190
18.72
年齡
20-24歲
92
23.59
25-29歲
93
23.85
30-34歲
103
26.41
35-39歲
102
26.15
教育程度
國中以下(含)
31
7.95
高中職
111
28.46
專科
71
18.21
大學
148
37.95
研究所
29
7.44
依據內政部戶政司出版的統計年報資料顯示,截至2012年12月底為止,我國20-39歲的人口數合計為7,217,390人。由表4-1可看出,就性別而言,男性佔50.47%,女性佔49.53%。就年齡層而言,20-24歲人口佔22.38%,25-29歲人口佔23.39%,30-34歲人口佔28.25%,35-39歲人口佔25.97%。就教育程度而言,國中以下(含)站6.82%,高中職佔28.22%,專科佔15.01%,大學佔40.52%,研究所占9.42%。
表1-4 母體分配
變數
人數
百分比(%)
合 計
7,217,390
100.00
性別
3,642,262
50.47%
3,575,128
49.53%
年齡
20-24歲
1,615,579
22.38%
25-29歲
1,688,435
23.39%
30-34歲
2,038,988
28.25%
35-39歲
1,874,388
25.97%
教育程度
國中以下(含)
492,483
6.82%
高中職
2,036,950
28.22%
專科
1,083,468
15.01%
大學
2,924,468
40.52%
研究所
680,021
9.42%
資料來源:http://sowf.moi.gov.tw/stat/year/list.htm
為檢定樣本資料性別、年齡層與教育程度是否具有代表性,也就是要檢定樣本分配與母體分配是否相同,因此,要分別針對性別、年齡層與教育程度進行適合度檢定,茲以性別來說明檢定的過程如下:
首先,如果樣本分配與母體分配一致(P=0.5047,P=0.4953)的話,則在觀察的390個樣本中,男性的比例應佔50.47%,女性的比例應佔49.53%,此時男性應該會有3900.5047=196.833人,女性應該會有3900.4953=193.167人,這些次數稱為期望次數(E);在樣本中實際觀察到男性200人,女性100人,這些稱為觀察次數(O),茲整理如表1-5 所示:
表1-5 觀察次數與期望次數摘要表
性 別
合 計
觀察次數O
200
190
390
期望次數E
196.833
193.167
390
其次,如果觀察次數(O)與期望次數(E)的差異愈大,則表示樣本分配與母體分配的一致性越低,相反的,觀察次數(O)與期望次數(E)的差異愈小,則樣本分配與母體分配的一致性越高。由理論可以知道,在樣本數n夠大的情況下,統計量單元一 資料處理15會近似自由度k-1的卡方分配,因此,此檢定的拒絕域單元一 資料處理16
最後,計算檢定統計量的值
單元一 資料處理16
由於檢定統計量單元一 資料處理18中,所以,我們沒有充分證據來證明樣本分配與母體分配不一致,也就是,就性別而言,顯示樣本分配與母體分配是一致的。
同理,可檢定年齡層與教育程度的樣本分配與母體分配是否一致,整理如表1-6 所示:
表1-6 基本資料適合度檢定摘要表
變數
性別
年齡層
教育程度
卡方值
0.2564
(0.6126)
0.7621
(0,8585)
5.6553
(0.2264)
註:括號內為P值
由表1-6 可以看出在性別、年齡層與教育程度的適合度檢定中,P值分別為0.6126、0.8585與0.2624,均未達顯著水準,因此,本研究基本資料的樣本分配與母體分配一致,顯示本研究樣本具有代表性。

EG操作

Tags
Share

About Author

SAS Taiwan

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

Comments are closed.

Back to Top