Author

SAS Taiwan
RSS

SAS 學習資源 : https://blogs.sas.com/content/sastaiwan/

SAS Taiwan 0
日期函數的應用-2

在分析資料時,年齡常常是一個分析的重要變數,但是年齡的資料一般不會設成固定的數值性變數,通常在分析資料時,年齡的資訊都是利用生日而獲得,在分析健保資料庫時,資料庫中是沒有年齡這一個變數,所以我們需要年齡這個變數時,亦是用資料中的生日變數獲得。因為SAS儲存日期是以距離1960/01/01的天數當作儲存資訊,故我們看到很多分析者採用(今日-生日)除上365的公式來計算年齡,但其實SAS有提供我們可以計算年數(年齡)的函數。

SAS Taiwan 0
顯示格式的轉換(一):FORMAT

在分析資料時,我們常常需要將數據轉換成另外的資料型態,例如成績可以分為及格與不及格,人的年齡可以分為青年、壯年、中年及老年,然後再使用這些經過轉換的資料進行下一步的分析,例如圖表分析或是統計檢定等。 

SAS Taiwan 0
顯示格式的轉換(二):QUERY

在上一篇顯示格式的轉換(FORMAT)中提到,我們可以經由將數據轉換成其他格式後,再使用這些已經轉換的資料進行下一步的分析。在此,我們示範另外一種利用查詢產生器(QUERY)的方式,亦可達成相同的目標。

SAS Taiwan 0
修改專案資料館

在做資料分析時,我們常常會碰到需要修改專案資料館的狀況,例如:我們將EG檔案從A電腦複製至B電腦去執行,在A電腦中我們的專案資料館是在E槽的某個指定的資料夾裡,但在B電腦中卻沒有E槽,所以將EG在B電腦中執行時就會遇到執行錯誤的情況。下列將介紹兩個方法來避免上面的問題。

SAS Taiwan 0
刪除重複性資料

在百貨公司周年慶企劃中,行銷經理想要挑出去年周年慶的客戶,作為今年周年慶公司寄送折扣商品刊物的名單。於是他想要從客戶購物資料中選出去年的所有消費者的資料。但在上百萬筆的消費帳單中,其實客戶可能只有數萬人,故行銷經理真正要找出的是這數萬筆消費者資料而非所有的銷售資料。又或是醫療單位想要從健保資料庫中挑選某疾病的病患,但是在資料庫中這些特定的病患都會看診數次,所以移除重複性的資料這個動作在處理資料時是很常用到的。 

SAS Taiwan 0
設定自動化參數

我們在作一些例行性報表輸出時,經常會將日期一起置於報表中輸出,若每次輸出這些報表時,都必需更改一次日期,不但麻煩也容易出錯,因此若能在程式中加入巨集變數,利用SAS EG的提示建立,即可輕鬆解決這個問題。 要建立一個SAS EG 提示,可以由工具列上選擇檢視→ 提示管理員(圖1),在左下角即會出現提示管理員(圖2)視窗,我們可以在此新增許多不同類型的EG提示。首先建立提示的名稱。按一下增加,在增加新的提示視窗的一般中鍵入名稱後,在顯示的文字中也會預設為相同值(圖3)。提示的名稱建立完後,我們就可以開始設定提示的內容了。

SAS Taiwan 0
將計算欄新增至查詢

查詢產生器,可讓您將欄新增至您從其他欄或值計算而來的查詢。 您要在查詢中建立計算欄,並於其中包含透過每筆訂單賺取到的利潤。[Products] 資料集包含變數 UnitPrice,此為產品的零售價格。[Orders] 資料集則包含變數 UPRICE 與 QUANTITY,分別代表成本與銷售數量。您可以使用這三個變數,計算透過每筆訂單賺取到的利潤。

SAS Taiwan 0
單一類別型變量的分析(摘要表)

在分析資料時,我們可以粗略的將資料分成類別型和數值型。若遇到單一類別型變量時,我們可以採取的分析方法有製表和做圖。在本章的實際例題演練中,將帶領大家如何在SAS EG裡繪製次數及比例分配表,來展現單一類別型變量的資料特性。

SAS Taiwan 0
單一類別型變量的分析(長條圖)

在分析資料中我們可以粗略的將資料分成類別型和數值型。若遇到單一類別型變量時,我們可以採取的分析方法有製表和做圖。在做圖的分析裡,最常被使用的有長條圖與圓餅圖。以下將帶領大家如何在SAS EG裡繪製長條圖來表現單一類別型變量的特性。

SAS Taiwan 0
單一類別型變量的分析(圓形圖)

在分析資料中我們可以粗略的將資料分成類別型和數值型。若遇到單一類別型變量時,我們可以採取的分析方法有製表和做圖。在做圖的分析裡,最常被使用的有長條圖與圓餅圖。以下將帶領大家如何在SAS EG裡繪製長條圖來表現單一類別型變量的特性。 範例中,我們使用SAS EG的範例資料CARS,請選擇伺服器清單->伺服器->本機->資料館->SASHELP->CARS   在工作的快捷選單中選擇圖形->圓形圖精靈   選擇下一步 在圓形圖精靈的第2步驟主要是指派變數給角色,在圖塊(S)欄中給定欲繪製圓形圖的變數Origin,並指派欲分析變數圖塊大小(L),在此除了可以指定繪製變量的次數或比例之外,亦可以搭配其他數值性變數繪製。在此我們選擇最常用的次數來繪製圖形。選擇所需的欄位後,選擇下一步進入到下一個精靈設定。 在圓條圖精靈的第3步驟主要是修改圓形圖的外觀,在此除了可以繪製3D立體圖形,亦可在圖形上加上標籤、數值…等的設定。在這就沒有一定的設定,我們可以依照我們個人的喜好勾選或不勾選這些選項。 在圓形圖精靈的第4步驟主要是修改最後報表呈現之抬頭及頁尾的文字,在此我們先不做任何修改。 直接選擇完成。 在SAS EG的結果裡會顯示出我們剛剛所執行圓形圖工作。

SAS Taiwan 0
單一類別型變量的分析檢定(適合度)

在做問卷調查時,分析者在回收完問卷後,常常直接針對問卷的資料進行分析,而沒有顧慮到資料的代表性。何謂資料的代表性?就是從母體抽出的樣本和母體的結構相似與否,用以辨別此資料是否可以充份表現出母體的特性。假設我們針對學校的學生進行調查,即使我們可以確實做到隨機抽樣,但是我們仍有可能抽到極端的樣本。有鑑於此,我們會對樣本做一些簡單的測驗,例如針對學生的男女比例,學院別的比例做比例的檢測,看其是否符合母體的資料組成。若一間學校的男女生比例是5:5,但是我們的樣本資料的男女生比例是2:8,這時我們就要懷疑此抽樣所得樣本的代表性了。若資料不具代表性,那麼分析所得的結果是否可以說明母體具有之特性就會被高度的懷疑。 

SAS Taiwan 0
適合度檢定(多項)

「適合度檢定」是在檢查資料是否符從某種比例或是某種分配。 例如,有報導指出,現在台灣各個宗教信仰人口的比例為(彿道教:25%,天主基督教:15%,其他10%:,無神論:50%),則我們可以調查一樣本,利用樣本的比例來測試,跟此報導的比例會不會有很大的差異。 資料說明: 這個例子的資料是來自歐洲兩個不同區域的學童的頭髮及眼睛的顏色。此資料並非原始資料,而是所謂的二手資料或是次級資料(資料是整理過後)。其中Count 變數為該類型的次數。

SAS Taiwan 0
敘述統計量

當我們遇到成千上萬筆的數字時,要如何可以快速得知這些資料的特性呢?這時,敘述統計量就可以提供我們一種簡單的方式來了解這浩大的資料。

SAS Taiwan 0
單一數值型變量之分析-盒形圖

盒形圖是我們很常用來呈現單一數值型變量特性的圖形。利用盒形圖可以將數值資料訊息做一有效的傳達,從圖中不僅可以看出資料的最小值、最大值、下四分位數及上四分位數,這意味著盒形圖中央的盒形部份包含了資料的中間50%的部分,也可以由兩端延伸的鬚來表示資料1.5倍的內四分位距。此外,在不同群組的資料中,若要比較資料的大小或集中特性,盒形圖亦不失為一個很好的方法。

SAS Taiwan 0
常態檢定

在一般傳統的統計分析中,常常會需要假設資料呈常態分配。不論是原始資料或是在進行殘差分析時大多都有這個假設,所以在做分析前後都須進行資料常態的檢定。例如,我們在檢定某班級學生的體重是否為100磅時,若樣本資料數不夠多,則我們不能直接貿然的進行t檢定來檢定班級學生的體重平均是否為100磅,在此之前應該先確定資料是否有符合常態的假設的條件。 

SAS Taiwan 0
兩個類別變數的摘要表

在分析中,摘要表是我們常用來表現資料的一種方法,我們可以利用摘要表的工具來產生摘要表,在此提供使用者另一種方式來製作摘要表,但是此方法只適用在類別型的資料,如果我們要繪製的表格中需要產生數值性變數的統計量,則不適用此章的方法。 

SAS Taiwan 0
3D圓餅圖

當我們在處理兩個類別性變數時,除了可以利用表格分析呈現變數特性外,我們還可以製作簡易的3D圖形來表達其次數與比例;而利用EG所提供的功能,我們在繪製3D圖形時就變得更簡單、更容易上手了。在下列範例資料中,我們欲了解在DriveTrain變數中Origin所占的比例。

SAS Taiwan 0
單一數值型變量之分析-直方圖

我們在作資料分析時,一般可以將資料分成類別型和數值型兩種。不論哪一種類型,如何將原始的資料作一初步的整理與呈現,以使分析者可以迅速對其具有一定概念,製表或繪圖是最簡單的方法了。 針對單一數值型變量資料,繪圖及製表皆是我們可以採取的呈現方法。其中,直方圖及箱型圖是我們很常用來呈現單一數值型變量特性的圖形。 以下將介紹如何在SAS EG裡繪製直方圖。 我們以SAS EG的資料CLASS(伺服器清單->伺服器->本機->資料館->SASHELP->CLASS)為範例,假設我們欲了解該班學生身高的特性及其分布是否為常態,可以利用SAS EG的直方圖工作來呈現及檢測。 

SAS Taiwan 0
3D長條圖

當我們在處理兩個類別性變數時,除了可以利用表格分析呈現變數特性外,我們還可以製作簡易的3D圖形來表達其次數與比例;而利用EG所提供的功能,我們在繪製3D圖形時就變得更簡單、更容易上手了。在下列範例資料中,我們欲將Origin和DriveTrain兩變數的次數以3D長條圖的方式呈現。

SAS Taiwan 0
齊一性檢定

齊一性檢定用於檢定兩個或兩個以上不同的母體是否具有相同的分配或相同的比例。例如:我們想看三家不同的便利商店的滿意程度是否具相同比例。下表是針對797個顧客所做的調查結果。

SAS Taiwan 0
分組數值資料之分析-盒形圖

盒形圖是我們很常用來呈現單一數值型變量特性的圖形。利用盒形圖可以將數值資料訊息做一有效的傳達,從圖中不僅可以看出資料的最小值、最大值、下四分位數、及上四分位數,這意味著盒形圖中央的盒形部份包含了資料的中間50%的部分,也可以由兩端延伸的鬚來表示資料1.5倍的內四分位距。此外,在不同群組的資料中,若要比較資料的大小或集中特性,盒形圖亦不失為一個很好的方法。

SAS Taiwan 0
兩獨立樣本t檢定

當我們對兩個獨立母體的平均數差有興趣時,可以藉由樣本的平均數差做為工具來進行統計檢定。 例如,我們想知道某班學生男女生的身高是否有差異,這時可以執行獨立雙樣本的t 檢定。

SAS Taiwan 0
兩相依兩母體t檢定

若我們在探討人受到刺激後,其收縮壓是否會改變;或是在服了某種降血壓的藥物後,其血壓值是否真的有降低這類型的問題,我們所收集到的受刺激前後或服藥前後所測量的血壓值,並非屬於獨立的資料。針對這種相依型態的資料,我們在分析時會先將同一樣本所提供的兩變數(前、後兩數據)相減測量其差異值,再根據此差異值進行統計分析。在SAS EG中我們並不需先進行計算差異的動作,EG直接在工作中就可以幫我們進行必要的計算。 

SAS Taiwan 0
ANOVA變異數分析

在資料為常態假設下,欲比較兩個群體的平均數是否有差異時,我們可以使用t-test檢定之。但若我們欲比較多個群體的平均數是否有差異時,則必須使用變異數分析(ANOVA)的方法來判別。 若分析的結果顯示出多組平均之間有差異時,這時我們可以更進一步進行兩兩平均數間的差異比較。 而變異數分析需有三項假設前提(獨立、常態、均質),在進行分析時也要先檢定資料是否有符合這三項假設。

SAS Taiwan 0
無母數單因子ANOVA

在執行變異數分析時,有獨立、常態性、均值三大假設。若資料不符合常態或均值假設時,此時我們可以利用無母數的方式,檢定母體中位數是否有差異來替代檢定母體平均數,則我們就不需資料為常態性或均值的前提假設。

SAS Taiwan 0
雙數值型變量的分析

在分析資料中我們若遇到兩個數值型變量時,我們最先採取的分析方法是製作這兩變量的散佈圖。從散佈圖中可以大略看出此兩數值型變量之間的關係,是遞增、遞減、成線性或是非線性。以下將帶領大家如何在SAS EG裡繪製散佈圖來表現雙數值型變量之間的關係。

SAS Taiwan 0
區域圖

在SAS EG的「區域圖」工作可建立區域、雲線、步階或覆疊圖,以顯示兩個變數間的數學關係。 區線下的區域會以圖樣或顏色組合填滿,以產生視覺化的效果。

1 5 6 7 8 9