SAS Taiwan

SAS TaiwanFebruary 25, 2020 0

雷達圖

雷達圖是一種表現群組資料與整組資料間關係的圖表。雷達圖將群組資料依序標繪在雷達圖的輻條上，然後依照數值的大小以雷達圖的中心為原點向外標出頂點。這樣一眼就可以判斷出群組資料與整組資料間的關係了。

Chinese

SAS TaiwanFebruary 25, 2020 0

氣泡圖

氣泡圖有點像是散佈圖的變形，利用氣泡的大小來表示第三的數值型變數的大小。

Chinese

SAS TaiwanFebruary 25, 2020 0

曲面圖

曲面圖將三個數值性資料顯示成地形圖的形式。

Chinese

SAS TaiwanFebruary 25, 2020 0

複迴歸

本篇我們以SASHELP中的CARS檔案為例，討論汽車的引擎大小與那些因素有相關，在調查項目裡我們選取下列變數來討論：Invoice (售價；單位：美金)、Enginesize (引擎大小；單位：1000cc數)、Cylinders (汽缸數)、Horsepower (馬力)、MPG_city (每加侖可在市區行駛公哩數)、MPG_highway (每加侖可在高速公路上行駛公哩數)、Weight (車輛重量；單位：磅)、Wheelbase(車輛軸距；單位：吋)及Length (車輛長度；單位：吋)。資料存放在sashelp裡面：本機=>資料館=>SASHELP=>CARS。

Chinese

SAS TaiwanFebruary 25, 2020 0

模型診斷

我們將著重在討論價格為35000元(單位：美金)以下之汽車。首先我們先將資料做篩選。篩選與排序 =>變數 =>全選所有的變數拖曳至右邊 =>篩選條件 =>選擇「Invoice35000」 =>確定。完成之後，即可將所有價格小於35000元的汽車篩選出來。

Chinese

SAS TaiwanFebruary 25, 2020 0

模型選取

在迴歸分析裡，我們有許多的方法來選擇我們的模型，如：向前選取法(Forward selection)、向後消去法(Backward elimination)、逐步選取法(Stepwise selection)、Mallows’ CP、R-平方(R-Square)、調整後R平方(adjust R-square)、Akaike information criterion(AIC)、Schwarz Bayesian Criterion(SBC)等。分別介紹一下：

Chinese

SAS TaiwanFebruary 25, 2020 0

共線性檢驗

根據上一節最後選定的模型，我們做一次是否有共線性的問題。在此，我們有兩種方法來判斷，(1) 變異數膨脹因子（Variance Inflation Factor，VIF） (2) 共線性診斷(Collinearity Diagnostics)。當變異數膨脹因子>10或是共線性診斷>100時，表示有共線性的問題。

Chinese

SAS TaiwanFebruary 25, 2020 0

離群值與影響點

最後，我們來介紹離群值與影響點。一、離群值(Outlier)：尋找觀察值Y是否有離群值，我們可用Student殘差來看，其準則為：二、影響點(Influential)： 1、DFFITS準則為： 2、DFBETAS準則為： 3、Cook’s Distance measure(Cook’s D)準則：為了了解哪些筆資料有離群值或是影響點，我們再一次點「修改工作」=>選擇「預測」，先勾選「原始樣本」再勾選「診斷統計值」=>執行。在分析資料時我們發現有兩筆資料(第178、179筆)在記錄時遺失氣缸數，故無法做任何的預測，所以我們將刪除。首先我們先討論Cook’s D的情形，其圖形如下：在圖示上，我們可以很明顯看到有似乎只有三筆影響點，配合上述Cook’s D的公式，當Cook’s D的值大於0.013時表示為影響點；因此，我們回到原始資料來查看是哪幾筆。在「結果-SAS報表」旁邊有「輸出資料」=>將資料拉至後方，我們可看到Cookd_EngineSize_log的值。結果我們發現Cook’s D大於0.013的觀察值分別為：第6、12、47、65、103、105、108、109、149、295、208、297、298、303，共14筆。接下來我們觀察DFFITS的情形，其圖形如下：配合上述dffits的公式，當絕對值的diffits大於0.25時即為影響點，我們亦可以從原始資料來觀察。其影響點為：第6、12、47、58、65、93、103、105、108、109、147、149、242、260、295、208、297、298、303、313，共20筆。透過兩種看影響點的方法，我們發現有14筆資料有重覆，而以DFFITS為標準則找出較多的影響點。結論：根據迴歸式的估計結果可知當氣缸數較大、馬力較大、車身長度較長，而價格低一點、行走高速公路的油秏差一點，會得到較大的引擎CC數；但是我們將這些影響點列出發現有很明顯的不同。舉例來說，第109筆資料我們發現氣缸數非常的少(只有三個)，且馬力也是最小的，但是在油秏上卻非常的出色。又例如第105筆資料有最多的氣缸數(八個)，馬力非常好，而在油秏上卻表現的不差，在價格方面亦不是很高價…等。根據上述的分析，除了有兩筆資料有遺失值我們刪除外，其他的觀測值雖為影響點(假設在建資料時沒有錯誤)，但我們仍不應將資料刪除，以反應真實的情形。

Chinese