寫論文一定會做問卷,但好不容易搜集來的問卷,到底要怎麼統計才能找出結果呢?
本系列第一篇,要教大家 一 問卷資料的處理
高等教育普及是近年來的趨勢,由教育部統計處的統計資料中發現,近十年來,台灣地區研究生的數量增加近一倍。在社會科學的領域中,很多的研究生並沒有修習過統計學,連統計軟體也沒有碰過,但是,論文是畢業的門檻,又要做統計分析的工作,不是請別人操刀,就是採用錯誤的分析方法,因此,如何幫助研究生以正確的統計方法來完成一篇碩士論文,實乃一重要課題。本文將以研究量表做為調查工具,以SAS公司所研發的Enterprise Guide(簡稱EG)做為分析工具,來介紹如何以EG來完成碩士生有關量表的分析工作。
一、 資料的編碼與建檔
本研究問卷有五大部分,共計45個問題。第一部分為消費者特性,共有性別、年齡層與教育程度等3個變數,分別以變數K1、K2與K3表示。在資料的編碼上,就性別而言,男性以1表示,女性以2表示;就年齡層而言﹐20-24歲以1表示,25-29歲以2表示,30-34歲以3表示,35-39歲以4表示;就教育程度而言,國中以下(含)以1表示,高中職以2表示,專科以3表示,大學以4表示,研究所以5表示。第二部分為「創新接受程度」量表,共有12個問項,分別以A1、A2、……與A12表示。第三部份為「產品創新屬性」量表,共有9個問項,分別以B1、B2、……與B9表示。第四部份為「消費者知識」量表,共有11個問項,分別以C1、C2、……與C11表示。第五部份為「購買意願」量表,共有10個問項,分別以D1、D2、……與D10表示。第二部分至第五部分的四個量表給分方式為非常同意給5分、同意給4分、普通給3分、不同意給2分、非常不同意給1分。在上述資料的編碼格式下,以EXCEL軟體建立資料檔MerryInsurance.xls的部分資料如表1-1所示︰
二、 Excel資料檔的匯入
在前面,我們已經說明過資料的編碼與建檔方式後,如何將已經建立好的Excel資料檔匯入後,轉換成SAS的資料集,EG提供了匯入資料檔的精靈讓我們可以很順利的完成資料檔的匯入。
三、 變數值格式的定義
前面在說明資料匯入時如何定義各變數的輸出標籤,例如:K1定義的輸出標籤為「性別」,K2定義的輸出標籤為「年齡」,K3定義的輸出標籤為「教育程度」……,D9 定義的輸出標籤為「我購買結婚綜合保險商品的原因是因承保項目多元化」,D10 定義的輸出標籤為「我認為結婚綜合保險商品滿足了我對於保險的需求」。至於,各變數值的輸出格式,如何定義呢?例如:就變數K1的値(1或2)而言,如何定義K1的值為1時,輸出格式為「男」,K1的值為2時,輸出格式為「女」,各變數數值欲輸出的格式如下:
表1-2 變數的標籤與輸出格式 | |||
變數
|
變數的標籤
|
資料編碼的値
|
數值的輸出格式
|
K1
|
性別
|
1
|
男
|
2
|
女
|
||
K2
|
年齡
|
1
|
20-24歲
|
2
|
25-29歲
|
||
3
|
30-34歲
|
||
4
|
35-39歲
|
||
K3
|
教育程度
|
1
|
國(初)中以下(含)
|
2
|
高中(職)
|
||
3
|
專科
|
||
4
|
大學
|
||
5
|
研究所
|
||
A1-A12
B1-B9
C1-C11
D1-D10
|
量表的問題
|
1
|
非常不同意
|
2
|
不同意
|
||
3
|
普通
|
||
4
|
同意
|
||
5
|
非常同意
|
四、 匯入資料的檢核
當我們將資料匯入,並定義好各變數的輸出標籤與變數數值的輸出格式後,接下來就要檢核所匯入的資料是否有誤?例如:性別(K1)的數值是否只有1或2等兩類,年齡層的數值是否只有1、2、3或4等四類,教育程度的數值是否只有1、2、3、4或5等五類,所有量表變數(A1-A12,B1-B9,C1-C11,D1-D10) 的數值是否只有1、2、3、4或5等五類。如果發現這些變數的値有誤,則必須回原來的Excel資料檔去更正後,再來執行專案。在下表左方試錯誤的資料,變數K1出現「3」的數值,變數K2出現「5」與「23」的數值,很明顯這些資料都有誤,因此,須回原始資料修改後再行處理。
五、反向記分題的資料轉換
由於本研究問卷設有反向計分題,分別是第二部份「創新接受程度」量表的「A2:我不喜歡嘗試各種新發明與新觀念」與「A11:我很不容易接受新的觀念」,第三部份為「產品創新屬性」量表的「B5:創新產險商品不會讓我覺得物超所值」,第四部份「消費者知識」量表的「C3:在選擇創新商品時,我無法清楚說出各產品屬性的重要性」與「C7:我比別人更不了解各種創新產險商品的資訊」,第五部份「購買意願」量表的「D4:我不會在業務員解說後立即購買結婚綜合保險」與「D6:保險公司誠實經營信用佳不是我購買結婚綜合保險的原因」。故在進行分析前,必須將這些變數的值進行資料轉換,原先5分的資料要轉換為1分,4分的資料要轉換為2分,3分的資料不動,2分的資料要轉換為4分,1分的資料要轉換為5分。應該要將這7個變數A2、A11、B5、C3、C7、D4與D6分別用6減去原來的數值,即使用下列的運算式來進行重新運算:
A2=6-A2
A11=6-A11
B6=6-B5
C3=6-C3
C11=6-C11
D4=6-D4
D6=6-D6
|
這些反向記分題原先建檔資料轉換前與轉換後的資料(部分資料)如下:
六、 樣本結構的檢定
表1-3 樣本結構 | |||
變數
|
人數
|
百分比(%)
|
|
合 計
|
390
|
100.00
|
|
性別
|
男 |
200
|
51.28
|
女 |
190
|
18.72
|
|
年齡
|
20-24歲 |
92
|
23.59
|
25-29歲 |
93
|
23.85
|
|
30-34歲 |
103
|
26.41
|
|
35-39歲 |
102
|
26.15
|
|
教育程度
|
國中以下(含) |
31
|
7.95
|
高中職 |
111
|
28.46
|
|
專科 |
71
|
18.21
|
|
大學 |
148
|
37.95
|
|
研究所 |
29
|
7.44
|
依據內政部戶政司出版的統計年報資料顯示,截至2012年12月底為止,我國20-39歲的人口數合計為7,217,390人。由表4-1可看出,就性別而言,男性佔50.47%,女性佔49.53%。就年齡層而言,20-24歲人口佔22.38%,25-29歲人口佔23.39%,30-34歲人口佔28.25%,35-39歲人口佔25.97%。就教育程度而言,國中以下(含)站6.82%,高中職佔28.22%,專科佔15.01%,大學佔40.52%,研究所占9.42%。
表1-4 母體分配 | |||
變數
|
人數
|
百分比(%)
|
|
合 計
|
7,217,390
|
100.00
|
|
性別
|
男 |
3,642,262
|
50.47%
|
女 |
3,575,128
|
49.53%
|
|
年齡
|
20-24歲 |
1,615,579
|
22.38%
|
25-29歲 |
1,688,435
|
23.39%
|
|
30-34歲 |
2,038,988
|
28.25%
|
|
35-39歲 |
1,874,388
|
25.97%
|
|
教育程度
|
國中以下(含) |
492,483
|
6.82%
|
高中職 |
2,036,950
|
28.22%
|
|
專科 |
1,083,468
|
15.01%
|
|
大學 |
2,924,468
|
40.52%
|
|
研究所 |
680,021
|
9.42%
|
|
資料來源:http://sowf.moi.gov.tw/stat/year/list.htm |
為檢定樣本資料性別、年齡層與教育程度是否具有代表性,也就是要檢定樣本分配與母體分配是否相同,因此,要分別針對性別、年齡層與教育程度進行適合度檢定,茲以性別來說明檢定的過程如下:
首先,如果樣本分配與母體分配一致(P男=0.5047,P女=0.4953)的話,則在觀察的390個樣本中,男性的比例應佔50.47%,女性的比例應佔49.53%,此時男性應該會有3900.5047=196.833人,女性應該會有3900.4953=193.167人,這些次數稱為期望次數(E);在樣本中實際觀察到男性200人,女性100人,這些稱為觀察次數(O),茲整理如表1-5 所示:
表1-5 觀察次數與期望次數摘要表 | |||
性 別
|
男
|
女
|
合 計
|
觀察次數O |
200
|
190
|
390
|
期望次數E |
196.833
|
193.167
|
390
|
其次,如果觀察次數(O)與期望次數(E)的差異愈大,則表示樣本分配與母體分配的一致性越低,相反的,觀察次數(O)與期望次數(E)的差異愈小,則樣本分配與母體分配的一致性越高。由理論可以知道,在樣本數n夠大的情況下,統計量會近似自由度k-1的卡方分配,因此,此檢定的拒絕域
最後,計算檢定統計量的值
由於檢定統計量中,所以,我們沒有充分證據來證明樣本分配與母體分配不一致,也就是,就性別而言,顯示樣本分配與母體分配是一致的。
同理,可檢定年齡層與教育程度的樣本分配與母體分配是否一致,整理如表1-6 所示:
表1-6 基本資料適合度檢定摘要表 | |||
變數
|
性別
|
年齡層
|
教育程度
|
卡方值
|
0.2564
(0.6126)
|
0.7621
(0,8585)
|
5.6553
(0.2264)
|
註:括號內為P值 |
由表1-6 可以看出在性別、年齡層與教育程度的適合度檢定中,P值分別為0.6126、0.8585與0.2624,均未達顯著水準,因此,本研究基本資料的樣本分配與母體分配一致,顯示本研究樣本具有代表性。