用EG幫你寫論文，事半功倍，加速畢業！[系列4-1]資料處理

寫論文一定會做問卷，但好不容易搜集來的問卷，到底要怎麼統計才能找出結果呢？

本系列第一篇，要教大家　一問卷資料的處理

高等教育普及是近年來的趨勢，由教育部統計處的統計資料中發現，近十年來，台灣地區研究生的數量增加近一倍。在社會科學的領域中，很多的研究生並沒有修習過統計學，連統計軟體也沒有碰過，但是，論文是畢業的門檻，又要做統計分析的工作，不是請別人操刀，就是採用錯誤的分析方法，因此，如何幫助研究生以正確的統計方法來完成一篇碩士論文，實乃一重要課題。本文將以研究量表做為調查工具，以SAS公司所研發的Enterprise Guide(簡稱EG)做為分析工具，來介紹如何以EG來完成碩士生有關量表的分析工作。

一、 資料的編碼與建檔

本研究問卷有五大部分，共計45個問題。第一部分為消費者特性，共有性別、年齡層與教育程度等3個變數，分別以變數K1、K2與K3表示。在資料的編碼上，就性別而言，男性以1表示，女性以2表示；就年齡層而言﹐20-24歲以1表示，25-29歲以2表示，30-34歲以3表示，35-39歲以4表示；就教育程度而言，國中以下(含)以1表示，高中職以2表示，專科以3表示，大學以4表示，研究所以5表示。第二部分為「創新接受程度」量表，共有12個問項，分別以A1、A2、……與A12表示。第三部份為「產品創新屬性」量表，共有9個問項，分別以B1、B2、……與B9表示。第四部份為「消費者知識」量表，共有11個問項，分別以C1、C2、……與C11表示。第五部份為「購買意願」量表，共有10個問項，分別以D1、D2、……與D10表示。第二部分至第五部分的四個量表給分方式為非常同意給5分、同意給4分、普通給3分、不同意給2分、非常不同意給1分。在上述資料的編碼格式下，以EXCEL軟體建立資料檔MerryInsurance.xls的部分資料如表1-1所示︰

下載資料檔

二、 Excel資料檔的匯入

在前面，我們已經說明過資料的編碼與建檔方式後，如何將已經建立好的Excel資料檔匯入後，轉換成SAS的資料集，EG提供了匯入資料檔的精靈讓我們可以很順利的完成資料檔的匯入。

EG操作

SAS VA教學大綱

三、 變數值格式的定義

前面在說明資料匯入時如何定義各變數的輸出標籤，例如：K1定義的輸出標籤為「性別」，K2定義的輸出標籤為「年齡」，K3定義的輸出標籤為「教育程度」……，D9 定義的輸出標籤為「我購買結婚綜合保險商品的原因是因承保項目多元化」，D10 定義的輸出標籤為「我認為結婚綜合保險商品滿足了我對於保險的需求」。至於，各變數值的輸出格式，如何定義呢？例如：就變數K1的値(1或2)而言，如何定義K1的值為1時，輸出格式為「男」，K1的值為2時，輸出格式為「女」，各變數數值欲輸出的格式如下：

表1-2 變數的標籤與輸出格式
變數	變數的標籤	資料編碼的値	數值的輸出格式
K1	性別	1	男
K1	性別	2	女
K2	年齡	1	20-24歲
		2	25-29歲
		3	30-34歲
		4	35-39歲
K3	教育程度	1	國(初)中以下(含)
		2	高中(職)
		3	專科
		4	大學
		5	研究所
A1-A12 B1-B9 C1-C11 D1-D10	量表的問題	1	非常不同意
		2	不同意
		3	普通
		4	同意
		5	非常同意

EG操作

四、 匯入資料的檢核

當我們將資料匯入，並定義好各變數的輸出標籤與變數數值的輸出格式後，接下來就要檢核所匯入的資料是否有誤？例如：性別(K1)的數值是否只有1或2等兩類，年齡層的數值是否只有1、2、3或4等四類，教育程度的數值是否只有1、2、3、4或5等五類，所有量表變數(A1-A12,B1-B9,C1-C11,D1-D10) 的數值是否只有1、2、3、4或5等五類。如果發現這些變數的値有誤，則必須回原來的Excel資料檔去更正後，再來執行專案。在下表左方試錯誤的資料，變數K1出現「3」的數值，變數K2出現「5」與「23」的數值，很明顯這些資料都有誤，因此，須回原始資料修改後再行處理。

EG操作

五、反向記分題的資料轉換

由於本研究問卷設有反向計分題，分別是第二部份「創新接受程度」量表的「A2：我不喜歡嘗試各種新發明與新觀念」與「A11：我很不容易接受新的觀念」，第三部份為「產品創新屬性」量表的「B5：創新產險商品不會讓我覺得物超所值」，第四部份「消費者知識」量表的「C3：在選擇創新商品時，我無法清楚說出各產品屬性的重要性」與「C7：我比別人更不了解各種創新產險商品的資訊」，第五部份「購買意願」量表的「D4：我不會在業務員解說後立即購買結婚綜合保險」與「D6：保險公司誠實經營信用佳不是我購買結婚綜合保險的原因」。故在進行分析前，必須將這些變數的值進行資料轉換，原先5分的資料要轉換為1分，4分的資料要轉換為2分，3分的資料不動，2分的資料要轉換為4分，1分的資料要轉換為5分。應該要將這7個變數A2、A11、B5、C3、C7、D4與D6分別用6減去原來的數值，即使用下列的運算式來進行重新運算：

A2=6-A2

A11=6-A11

B6=6-B5

C3=6-C3

C11=6-C11

D4=6-D4

D6=6-D6

這些反向記分題原先建檔資料轉換前與轉換後的資料(部分資料)如下：

EG操作

六、 樣本結構的檢定

表1-3 樣本結構
變數		人數	百分比(%)
合計		390	100.00
性別	男	200	51.28
性別	女	190	18.72
年齡	20-24歲	92	23.59
	25-29歲	93	23.85
	30-34歲	103	26.41
	35-39歲	102	26.15
教育程度	國中以下(含)	31	7.95
	高中職	111	28.46
	專科	71	18.21
	大學	148	37.95
	研究所	29	7.44

依據內政部戶政司出版的統計年報資料顯示，截至2012年12月底為止，我國20-39歲的人口數合計為7,217,390人。由表4-1可看出，就性別而言，男性佔50.47%，女性佔49.53%。就年齡層而言，20-24歲人口佔22.38%，25-29歲人口佔23.39%，30-34歲人口佔28.25%，35-39歲人口佔25.97%。就教育程度而言，國中以下(含)站6.82%，高中職佔28.22%，專科佔15.01%，大學佔40.52%，研究所占9.42%。

表1-4 母體分配
變數		人數	百分比(%)
合計		7,217,390	100.00
性別	男	3,642,262	50.47%
性別	女	3,575,128	49.53%
年齡	20-24歲	1,615,579	22.38%
	25-29歲	1,688,435	23.39%
	30-34歲	2,038,988	28.25%
	35-39歲	1,874,388	25.97%
教育程度	國中以下(含)	492,483	6.82%
	高中職	2,036,950	28.22%
	專科	1,083,468	15.01%
	大學	2,924,468	40.52%
	研究所	680,021	9.42%
資料來源：http://sowf.moi.gov.tw/stat/year/list.htm

為檢定樣本資料性別、年齡層與教育程度是否具有代表性，也就是要檢定樣本分配與母體分配是否相同，因此，要分別針對性別、年齡層與教育程度進行適合度檢定，茲以性別來說明檢定的過程如下：

首先，如果樣本分配與母體分配一致(P男=0.5047，P女=0.4953)的話，則在觀察的390個樣本中，男性的比例應佔50.47%，女性的比例應佔49.53%，此時男性應該會有3900.5047=196.833人，女性應該會有3900.4953=193.167人，這些次數稱為期望次數(E)；在樣本中實際觀察到男性200人，女性100人，這些稱為觀察次數(O)，茲整理如表1-5 所示：

表1-5 觀察次數與期望次數摘要表
性別	男	女	合計
觀察次數O	200	190	390
期望次數E	196.833	193.167	390

其次，如果觀察次數(O)與期望次數(E)的差異愈大，則表示樣本分配與母體分配的一致性越低，相反的，觀察次數(O)與期望次數(E)的差異愈小，則樣本分配與母體分配的一致性越高。由理論可以知道，在樣本數n夠大的情況下，統計量會近似自由度k-1的卡方分配，因此，此檢定的拒絕域單元一資料處理16

最後，計算檢定統計量的值

由於檢定統計量

中，所以，我們沒有充分證據來證明樣本分配與母體分配不一致，也就是，就性別而言，顯示樣本分配與母體分配是一致的。

同理，可檢定年齡層與教育程度的樣本分配與母體分配是否一致，整理如表1-6 所示：

表1-6 基本資料適合度檢定摘要表
變數	性別	年齡層	教育程度
卡方值	0.2564 (0.6126)	0.7621 (0,8585)	5.6553 (0.2264)
註：括號內為P值

由表1-6 可以看出在性別、年齡層與教育程度的適合度檢定中，P值分別為0.6126、0.8585與0.2624，均未達顯著水準，因此，本研究基本資料的樣本分配與母體分配一致，顯示本研究樣本具有代表性。

EG操作

Blogs

Blogs

用EG幫你寫論文，事半功倍，加速畢業！[系列4-1]資料處理

About Author