如何運用SAS EM繪製圖表以快速瀏覽大量資料

0
在SAS EM匯入分析資料後,建議讀者先運用幾個EM分析節點進行資料的檢視與瀏覽,檢視原始資料集其實是資料分析很重要的基本功能,可以培養對資料的敏感度,每一筆資料都是一個行為發生,透過直接的檢視資料,可以增加說故事的能力,甚至檢視資料的異常值,便於快速進行資料處理,以及有創意的衍生變數產生,產生精準的預測模型結果。

分析者容易因為由於有了強大的分析工具,常會習慣仰賴將資料直接丟給系統平台進行分析,SAS EM的分析節點提供各種視覺化瀏覽資料的節點,讓分析者可以快速掌握大量資料的概況,初步診斷出資料的異常情形,快速進行資料處理工作。圖示化資料分布是最容易進行資料瀏覽檢視的方法,Graph explore node提供各式圖表的產出,分析者可以單一拖曳該節點進行資料展示,也可以透過其他分析節點使用Graph explore的功能,因為SAS EM12.1已將Graph explore node鑲嵌在各個分析節點內。
產生直方圖
a
1. 點選German Credit資料集,點選參數列內「Variables」或拖曳「Graph explore node」進行資料檢視與分布圖產出。
2. 選擇變數清單內欲檢視的變數,點選「Explore」
b
圖一、進行變數資料預覽
3. 產出變數分布圖,樣本統計量、樣本原始資料表, 點選「Plot」或 11 進行繪圖工作

3

圖二、檢視變數預覽結果與選擇繪圖功能

4

圖三、檢視變數預覽結果與選擇繪圖功能
其中,圖形檢視所取的樣本資料(如圖三),預設為前1000筆的樣本資料,調整抽樣方法或樣本大小,可透過「Sample Properties樣本選取參數」進行設定,此處僅作資料快速瀏覽之用,所以建議僅取部分樣本資料進行檢視,無須納入全體資料。
「Sample Statistics樣本統計量」提供各變數主要統計量,如:平均數、眾數、最小值、最大值、遺失值比例等資訊,以快速了解資料品質與概況。分析者在檢視分布圖形時,若找到關注的客群或異常的資料點,可圈選這些資料質點,SAS EM提供互動式的功能,可以同時在「原始資料集」中檢視這些被標註資料點的各筆資料的實際數值,以協助分析者找出資料異常的可能原因。

5

圖四、繪製直方圖--選擇變數
選擇Histogram直方圖,製作直方圖需將指定的分析變數設定為「X」,一次只選一個變數投入分析。完成後,點選「下一步」。
輸入表頭–"年齡"或下where條件進行簡單的資料排除。完成圖形產出。
6
圖五、繪製直方圖--圖形結果產出
點選直方圖,按右鍵,選擇「Graph Properties」可調整圖形屬性,如軸刻度、表頭、兩軸命名等。
產生圓餅圖
選擇圓餅圖Pie,製作圓餅圖時分析變數適用類別變數,並將指定的類別型變數設定為「Category」。點選下一步。
7
圖六:繪製圓餅圖--選擇變數
輸入表頭–【違約客戶】或下where條件進行簡單的資料排除。完成圖形產出。
8
圖七、繪製圓餅圖--圖形產出
可展現圖形間互動式效果
點選Window主選單下的「Tile」選項,可將產出的圖形做並列呈現,如圖,用游標圈選年齡在30歲以下的族群,EM會同時顯示該族群違約客戶的分布圖形,如下方圖形圓餅圖中斜線的部分。
圓餅圖中紅色區塊表示違約客戶的佔比,藍色表示正常客戶的佔比,其中母體好壞客戶的比例為7:3,而30歲以下的客群其違約客戶明顯高於母體。
9
圖八、圖形並列效果展示
透過EM的圖形分析可針對欲分析的觀察客群,在其他分析變數的資料分布狀況,快速由圖形解讀目標的客群的可能行為。
除了上述的圖形之外,EM的Graph explore node亦可產生「3D圖」「Density chart密度圖」「Box Plot盒鬚圖」「Scatter Plot 散布圖」等圖形,產出的圖形若欲並列展示,可點選選單Window → Tile」,並進行互動式跨圖形分布的資料展示。
10
Tags
Share Twitter Facebook Pinterest LinkedIn Email XING

About Author

SAS Taiwan

Comments are closed.

Back to Top