Author

SAS Taiwan
RSS

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

SAS Taiwan 0
雷達圖

雷達圖是一種表現群組資料與整組資料間關係的圖表。雷達圖將群組資料依序標繪在雷達圖的輻條上,然後依照數值的大小以雷達圖的中心為原點向外標出頂點。這樣一眼就可以判斷出群組資料與整組資料間的關係了。

SAS Taiwan 0
複迴歸

本篇我們以SASHELP中的CARS檔案為例,討論汽車的引擎大小與那些因素有相關,在調查項目裡我們選取下列變數來討論:Invoice (售價;單位:美金)、Enginesize (引擎大小;單位:1000cc數)、Cylinders (汽缸數)、Horsepower (馬力)、MPG_city (每加侖可在市區行駛公哩數)、MPG_highway (每加侖可在高速公路上行駛公哩數)、Weight (車輛重量;單位:磅)、Wheelbase(車輛軸距;單位:吋)及Length (車輛長度;單位:吋)。資料存放在sashelp裡面:本機=>資料館=>SASHELP=>CARS。

SAS Taiwan 0
模型選取

在迴歸分析裡,我們有許多的方法來選擇我們的模型,如:向前選取法(Forward selection)、向後消去法(Backward elimination)、逐步選取法(Stepwise selection)、Mallows’ CP、R-平方(R-Square)、調整後R平方(adjust R-square)、Akaike information criterion(AIC)、Schwarz Bayesian Criterion(SBC)等。 分別介紹一下:

SAS Taiwan 0
共線性檢驗

根據上一節最後選定的模型,我們做一次是否有共線性的問題。在此,我們有兩種方法來判斷,(1) 變異數膨脹因子(Variance Inflation Factor,VIF) (2) 共線性診斷(Collinearity Diagnostics)。當變異數膨脹因子>10或是共線性診斷>100時,表示有共線性的問題。

SAS Taiwan 0
離群值與影響點

 最後,我們來介紹離群值與影響點。 一、離群值(Outlier):尋找觀察值Y是否有離群值,我們可用Student殘差來看,其準則為: 二、影響點(Influential): 1、DFFITS準則為: 2、DFBETAS準則為: 3、Cook’s Distance measure(Cook’s D)準則: 為了了解哪些筆資料有離群值或是影響點,我們再一次點「修改工作」=>選擇「預測」,先勾選「原始樣本」再勾選「診斷統計值」=>執行。 在分析資料時我們發現有兩筆資料(第178、179筆)在記錄時遺失氣缸數,故無法做任何的預測,所以我們將刪除。 首先我們先討論Cook’s D的情形,其圖形如下: 在圖示上,我們可以很明顯看到有似乎只有三筆影響點,配合上述Cook’s D的公式,當Cook’s D的值大於0.013時表示為影響點;因此,我們回到原始資料來查看是哪幾筆。在「結果-SAS報表」旁邊有「輸出資料」=>將資料拉至後方,我們可看到Cookd_EngineSize_log的值。 結果我們發現Cook’s D大於0.013的觀察值分別為:第6、12、47、65、103、105、108、109、149、295、208、297、298、303,共14筆。 接下來我們觀察DFFITS的情形,其圖形如下: 配合上述dffits的公式,當絕對值的diffits大於0.25時即為影響點,我們亦可以從原始資料來觀察。其影響點為:第6、12、47、58、65、93、103、105、108、109、147、149、242、260、295、208、297、298、303、313,共20筆。 透過兩種看影響點的方法,我們發現有14筆資料有重覆,而以DFFITS為標準則找出較多的影響點。 結論:根據迴歸式的估計結果可知當氣缸數較大、馬力較大、車身長度較長,而價格低一點、行走高速公路的油秏差一點,會得到較大的引擎CC數;但是我們將這些影響點列出發現有很明顯的不同。舉例來說,第109筆資料我們發現氣缸數非常的少(只有三個),且馬力也是最小的,但是在油秏上卻非常的出色。又例如第105筆資料有最多的氣缸數(八個),馬力非常好,而在油秏上卻表現的不差,在價格方面亦不是很高價…等。 根據上述的分析,除了有兩筆資料有遺失值我們刪除外,其他的觀測值雖為影響點(假設在建資料時沒有錯誤),但我們仍不應將資料刪除,以反應真實的情形。

SAS Taiwan 0
混合模型(ANOVA)

「混合模型」工作會讓各種混合線性模型符合資料,可讓您使用這些符合的模型對資料進行統計推論。 混合線性模型是標準線性模型的概括,概括的內容是允許資料呈現相關及非常數變異性。混合線性模型非常靈活,不僅可以建立資料平均值的模型,也可以建立其變異數與共變異數的模型。

SAS Taiwan 0
模型診斷

我們將著重在討論價格為35000元(單位:美金)以下之汽車。首先我們先將資料做篩選。篩選與排序 =>變數 =>全選所有的變數拖曳至右邊 =>篩選條件 =>選擇「Invoice35000」 =>確定。完成之後,即可將所有價格小於35000元的汽車篩選出來。

SAS Taiwan 0
主成分分析

在多變量分析中,主成分分析(Principal components analysis, PCA)是一種分析、簡化數據集的技術。利用原有的變數組合成新的變數,以達到資料縮減的目的,但卻能夠保留住數據本身所提供的重要資訊。由於主成分分析主要依賴數據提供的訊息,所以數據的準確性對分析結果影響很大。

SAS Taiwan 0
因素分析

因子分析可執行各種公因子與成分分析及轉軸。 輸入內容可以是多變量資料、相關矩陣、共變異數矩陣、因子模型或計分係數矩陣。

SAS Taiwan 0
判別分析

對於包含一或多個屬量變數及定義觀測值群組之分類變數的一組觀測值,「判別分析」工作會開發判別準則,將各觀測值分類為其中一個群組。由此資料集導出的判別準則,可於判別函數的同一個執行期間,套用到第二個資料集。 您可以使用這個工作,對自然界中發現的觀測值進行分類。例如,您可建立 SAS 資料集,其中包含 36筆植物的種類(5類)和4個不同的測量值。您可以使用此資料,將每一筆植物分類為5個種類之一的最佳分類變數,找出判別函數。

SAS Taiwan 0
管製圖( x̅ 與R圖表)

Shewhart 圖表是Shewhart (1891-1967) 是貝爾實驗室的物理學家,於 1924 年發表了此方法。 管制圖的立論概念是,任何生產流程中的自然變異均可透過一組管制界限來量化,若變異超出這些界限,即表示流程中有所變化。是業界在研究生產流程的輸出變化時最常用的統計式品管法。 Shewhart 圖表是一種圖形化的分析工具,可用以判斷程序是否符合統計控制。「平均值與全距圖表」工作可建立子群組平均值與子群組全距的平均值與全距圖表。這些圖表可用以分析製程的集中趨勢與變化性。

SAS Taiwan 0
P圖表

「p圖表」工作會建立一個樣本中不合格 (瑕疵) 項目的比例圖表,可用以判斷程序是否符合統計控制。

SAS Taiwan 0
簡單線性迴歸分析實例(迴歸假設)

迴歸分析是統計學上常用的分析方法,主要在建立一個函數(最能夠代表變數間的所有觀測資料),並用此函數來代表應變數和自變數之間的數學模式,以便觀察特定的變數來預測我們所感興趣的變數。若特定的變數(X)和有興趣的變數(Y)的數目都為一個,則我們稱此模型()為簡單線性迴歸分析。

SAS Taiwan 0
SAS 視覺資料探勘與機器學習 (VDMML) 開源協作

SAS全程化的共同分析平台,是專為不同分析階段的分析者所設計,包括資料科學家、統計學家、資料分析師、商業分析師等,並提供SAS、Python、R等分析者使用SAS的分析套件及運算資源。為企業中不同風格的資料分析者,提供一個安全且友善的共同分析環境。同時,該平台提供統一的管理介面給子企業IT人員,以監管及維護分析平台。

SAS Taiwan 0
Visual Statistics (VS) 開源協作 (Python)

Visual Statistics 提供原生整合至 Python Pandas DataFrames。Python 程式設計人員可上傳DataFrames 至 CAS,並從 CAS 擷取結果作為DataFrames,與其他 Python 套件 (如 Pandas、matplotlib、Plotly 及 Bokeh 等) 互動。除了Python以外,使用者能夠自己選擇程式設計語言如Java、R 及 Lua 等語言,不必學習如何在 SAS 進行程式設計,就能體驗 SAS Visual Statistics 的強大功能。他們能由其他編碼環境,彈性存取深獲信任及通過測試的 SAS 機器學習和統計演算法。

SAS Taiwan 0
SAS 視覺資料探勘與機器學習 (VDMML) 功能介紹

SAS視覺資料探勘與機器學習,提供全方位的分析者操作介面,為使用者打造完整的資料分析流程。從資料前處理、資料探索、模型建置、評估、到模型佈署,所有分析者都在統一的共同分析平台發揮所長。高規模化且富彈性的分析流程將大幅加速企業求解最複雜的分析問題。擁有豐富的現代化機器學習技術,您將更具分析競爭力去探索結構化及非結構化資料的數據世界。

SAS Taiwan 0
Visual Statistics (VS) 決策樹

處理大型複雜資料時,分群和決策樹等維度縮減技術可提升建模準確度。您可探索及評估群組,利用 k 平均值分群法、散佈圖及詳細的摘要統計進行分析。決策樹可建構用於分類及迴歸。建立決策樹後,您可利用互動方式修剪樹及訓練子樹。

SAS Taiwan 0
Visual Statistics (VS) 模型比較

模型建立後,就可由視覺化或程式設計介面,利用各式統計比較摘要 (如增益圖、ROC 曲線、協調性統計,以及分類錯誤率表格),來比較及評估一個以上的模型。視覺化介面提供互動式滑桿,可讓您變換切點,以輕鬆的視覺化方式評估不同深度的增益 (lift) 變化。結合模型配適結果與模型診斷,可讓模型評估功能可讓您比較模型以選擇最佳模型。

SAS Taiwan 0
Visual Statistics (VS) 羅吉斯迴歸

SAS的羅吉斯迴歸功能能達到:Logit 與常態連結函數 (probit link) 的二元分類模型、影響統計、支援向前向後與逐步及 Lasso 變數選擇、次數與加權變數、殘差值診斷。摘要表包括模型維度、迭代歷史、適配統計、收斂狀態、Type III 檢定表、參數估計以及模型回應結果。豐富而直覺的經典統計方法,SAS帶您快速上手。

SAS Taiwan 0
Visual Analytics (VA) 圖表呈現--以地圖為例

地理位置分析不只是在地圖上標示地點,而是利用其他資料與分析擴增位置資訊,產生更深入的見解。透過 SAS,您就可以結合傳統資料來源 (如交易、客戶及營運與位置和人口統計資料),在地理脈絡下進行分析。您可利用全新方式分析資料,瞭解各種機會與風險,並以視覺化方式與資訊互動,制定更明智的決策。

SAS Taiwan 0
Visual Statistics (VS) 功能介紹--以群集分析為例

Visual Statistics可讓您以互動方式探索資料,並使用視覺化的拖放介面或程式設計介面,建立描述及預測模型。資料科學家能夠與分析人員協同合作,優化模型以取得更理想的洞察。分散式In-Memory 處理可縮短資料探索及模型開發時間。統計人員、資料科學家、程式設計人員和一般分析人員,我們能幫助其建立、優化及評估預測模型,以獲得強大的洞見。

SAS Taiwan 0
Visual Analytics (VA) 計算與預測

簡單易用的預測分析工具無需編程,即能讓分析者評估可能結果,制定更理想的資料導向決策。利用視覺化及智慧演算法自動嘗試,您不必再擔心遺漏關鍵因子,並能與專家協作,讓您將重心放在最有關聯性的工作上。

1 6 7 8 9