分析人員於資料分析時,常常需計算數值性變數(例:銷售金額)之異常值。有時更需進一步,依某一特定分類變數(例:產品別)分別計算。於分析過程中,分析人員更希望能有效的,運用該特定分類變數之平均值與標準差,分別篩選該特定分類變數不同組別之極端資料。本文提供以下SAS依某一特定分類變數,掌控平均值與標準差,以擷取極端資料之範例。 範例 一 : <<依某一特定分類變數,平均值與標準差之儲存>>
輸出檔案 WORK.EXTREM 內容如下:
程式說明如下 : 1. 運用PROC MEANS,計算ACTUAL變數(VAR ACTUAL)之各平均值與標準差。 2. 以產品別為分組( CLASS PRODUCT ),分別計算。 3. 將計算之平均值與標準差,儲存於WORK.EXTREM 之SAS輸出檔案。 4. 儲存之變數名稱分別為A_MEAN(平均值)及A_STD(標準差)。 5. 產品別為BED時,變數ACTUAL的平均值之數值為 493.18,標準差之數值為281.78。
範例 二 : <<依某一特定分類變數,篩選極端之資料>>
程式說明如下 :
1. 先將SAS檔案 SASHELP.PRDSALE,以產品別為分組排序,產生WORK.SALES之SAS輸出檔案。
2. 以產品別為分組排序,讀取WORK.SALES檔案。此時SAS 工作區(PDV)中,將產生2內建變數(FIRST.PRODUCT 及LAST.PRODUCT)
3. 運用FIRST.PRODUCT之內建變數,於某一特定產品別(例:BED)之第一筆時,該特定產品別之平均值與標準差之數值,由另一SAS檔案 WORK.EXTREM中讀入SAS 工作區(PDV)中。這些值會一直存於工作區(PDV)內,直至另一特定產品別(例:CHAIR)之第一筆被讀入時,各平均值與標準差之數值才會更新。
4. 讀取SAS檔案 WORK.SALES每一筆資料時,某一特定產品別之變數ACTUAL之值小於平均值減1.5倍標準差之該筆資料,儲存於WORK.LOW_HIGH之SAS檔案。
5. 讀取SAS檔案 WORK.SALES每一筆資料時,某一特定產品別之變數ACTUAL之值大於平均值加1.5倍標準差之該筆資料,儲存於WORK.LOW_HIGH之SAS檔案。
6. 其餘資料不儲存。
輸出檔案 WORK.LOW_HIGH 內容如下:
Tags