Author
在資料為常態假設下,欲比較兩個群體的平均數是否有差異時,我們可以使用t-test檢定之。但若我們欲比較多個群體的平均數是否有差異時,則必須使用變異數分析(ANOVA)的方法來判別。 若分析的結果顯示出多組平均之間有差異時,這時我們可以更進一步進行兩兩平均數間的差異比較。 而變異數分析需有三項假設前提(獨立、常態、均質),在進行分析時也要先檢定資料是否有符合這三項假設。
在執行變異數分析時,有獨立、常態性、均值三大假設。若資料不符合常態或均值假設時,此時我們可以利用無母數的方式,檢定母體中位數是否有差異來替代檢定母體平均數,則我們就不需資料為常態性或均值的前提假設。
在做迴歸分析前,我們須先了解兩數值型變數間是否有呈現線性相關,最簡單的方式就是觀察兩變數的散佈圖。以下面兩張圖為例,雖然兩者均呈現線性相關,但相較於左圖而言,右圖的資料分布與迴歸線較為離散,所以我們可以因此而認定右圖資料不適合做迴歸分析嗎?也由於散佈圖的解說是很主觀的,如果我們只靠圖形來判別資料適不適合做迴歸分析,可能每個人的解讀結果都不相同。這時我們就需要有一個客觀的判斷準則--統計量。
迴歸分析是統計學上常用的分析方法,主要在建立一個函數(最能夠代表變數間的所有觀測資料),並用此函數來代表應變數和自變數之間的數學模式,以便觀察特定的變數來預測我們所感興趣的變數。若特定的變數(X)和有興趣的變數(Y)的數目都為一個,則我們稱此模型(Y=Bo+B1X)為簡單線性迴歸分析。
本篇我們以SASHELP中的CARS檔案為例,討論汽車的引擎大小與那些因素有相關,在調查項目裡我們選取下列變數來討論:Invoice (售價;單位:美金)、Enginesize (引擎大小;單位:1000cc數)、Cylinders (汽缸數)、Horsepower (馬力)、MPG_city (每加侖可在市區行駛公哩數)、MPG_highway (每加侖可在高速公路上行駛公哩數)、Weight (車輛重量;單位:磅)、Wheelbase(車輛軸距;單位:吋)及Length (車輛長度;單位:吋)。資料存放在sashelp裡面:本機=>資料館=>SASHELP=>CARS。
最後,我們來介紹離群值與影響點。 一、離群值(Outlier):尋找觀察值Y是否有離群值,我們可用Student殘差來看,其準則為: 二、影響點(Influential): 1、DFFITS準則為: 2、DFBETAS準則為: 3、Cook’s Distance measure(Cook’s D)準則: 為了了解哪些筆資料有離群值或是影響點,我們再一次點「修改工作」=>選擇「預測」,先勾選「原始樣本」再勾選「診斷統計值」=>執行。 在分析資料時我們發現有兩筆資料(第178、179筆)在記錄時遺失氣缸數,故無法做任何的預測,所以我們將刪除。 首先我們先討論Cook’s D的情形,其圖形如下: 在圖示上,我們可以很明顯看到有似乎只有三筆影響點,配合上述Cook’s D的公式,當Cook’s D的值大於0.013時表示為影響點;因此,我們回到原始資料來查看是哪幾筆。在「結果-SAS報表」旁邊有「輸出資料」=>將資料拉至後方,我們可看到Cookd_EngineSize_log的值。 結果我們發現Cook’s D大於0.013的觀察值分別為:第6、12、47、65、103、105、108、109、149、295、208、297、298、303,共14筆。 接下來我們觀察DFFITS的情形,其圖形如下: 配合上述dffits的公式,當絕對值的diffits大於0.25時即為影響點,我們亦可以從原始資料來觀察。其影響點為:第6、12、47、58、65、93、103、105、108、109、147、149、242、260、295、208、297、298、303、313,共20筆。 透過兩種看影響點的方法,我們發現有14筆資料有重覆,而以DFFITS為標準則找出較多的影響點。 結論:根據迴歸式的估計結果可知當氣缸數較大、馬力較大、車身長度較長,而價格低一點、行走高速公路的油秏差一點,會得到較大的引擎CC數;但是我們將這些影響點列出發現有很明顯的不同。舉例來說,第109筆資料我們發現氣缸數非常的少(只有三個),且馬力也是最小的,但是在油秏上卻非常的出色。又例如第105筆資料有最多的氣缸數(八個),馬力非常好,而在油秏上卻表現的不差,在價格方面亦不是很高價…等。 根據上述的分析,除了有兩筆資料有遺失值我們刪除外,其他的觀測值雖為影響點(假設在建資料時沒有錯誤),但我們仍不應將資料刪除,以反應真實的情形。
「混合模型」工作會讓各種混合線性模型符合資料,可讓您使用這些符合的模型對資料進行統計推論。 混合線性模型是標準線性模型的概括,概括的內容是允許資料呈現相關及非常數變異性。混合線性模型非常靈活,不僅可以建立資料平均值的模型,也可以建立其變異數與共變異數的模型。
Shewhart 圖表是Shewhart (1891-1967) 是貝爾實驗室的物理學家,於 1924 年發表了此方法。 管制圖的立論概念是,任何生產流程中的自然變異均可透過一組管制界限來量化,若變異超出這些界限,即表示流程中有所變化。是業界在研究生產流程的輸出變化時最常用的統計式品管法。 Shewhart 圖表是一種圖形化的分析工具,可用以判斷程序是否符合統計控制。「平均值與全距圖表」工作可建立子群組平均值與子群組全距的平均值與全距圖表。這些圖表可用以分析製程的集中趨勢與變化性。
迴歸分析是統計學上常用的分析方法,主要在建立一個函數(最能夠代表變數間的所有觀測資料),並用此函數來代表應變數和自變數之間的數學模式,以便觀察特定的變數來預測我們所感興趣的變數。若特定的變數(X)和有興趣的變數(Y)的數目都為一個,則我們稱此模型()為簡單線性迴歸分析。
SAS全程化的共同分析平台,是專為不同分析階段的分析者所設計,包括資料科學家、統計學家、資料分析師、商業分析師等,並提供SAS、Python、R等分析者使用SAS的分析套件及運算資源。為企業中不同風格的資料分析者,提供一個安全且友善的共同分析環境。同時,該平台提供統一的管理介面給子企業IT人員,以監管及維護分析平台。