Transform Variables node變數轉換的案例情境說明 延續『如何運用SAS EM進行變數處理與衍生變數產生(中)』文章說明 4. 利用「Formula衍生變數編輯區」進行衍生變數處理 【情境說明】 -產生衍生變數公式編輯計算逾期週期 -運用SAS 運算函數進行變數轉換 step1. 點選參數列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。 圖一、Transform Variables Node參數列 step2. 點選「Formula衍生變數編輯區」視窗左上列的 (新增衍生變數鈕) 列內的「Formulas」選項,進入衍生變數編輯區進行衍生變數處理。 圖二、Formula衍生變數編輯區 step3. 點選「Build...」進入「Expression Builder」衍生變數公式編輯區。除了簡單的四則運算式編輯外,在編輯區下方提供各類運算函式,以利分析者進行進階演算式產出。 位於函數區旁的另一個頁籤,則完整列出原始資料集的變數清單,分析者無須記憶變數名稱,可透過點選拖曳方式將進階處理的變數投放入編輯區。 圖三、Formula衍生變數編輯區--新增變數 step4. 產生衍生變數一:「Delinq_Freq逾期週期」,衍生變數公式:IMP_CLAGE(貸款往來期間)/IMP_DELINQ (逾期次數)。 從「Variables List原始變數列表區」選取變數IMP_CLAGE及IMP_DELINQ,點選「Insert」將欲處理之變數置放於衍生變數公式編輯區進行上述公式編輯。 圖四、Formula衍生變數編輯區--變數公式編輯與變數命名 step5. 點選「OK」,完成衍生變數新增。 step6. 產生衍生變數二:「LOG_YOJ工作年資對數化」,衍生變數公式:LOG (IMP_YOJ)。 重複Step2、Step3 進行衍生變數新增程序,從「Functions函數區」選取 Log
Chinese
SEMMA 方法論第一步的「S」即為Sample,此處的Sample有多個意涵,一為分析樣本的定義,如何從分析母體抽取適當的樣本資料,以及如何選擇最適抽樣。SEMMA方法論告訴分析者當進行分析建模時,我們應取用樣本資料而不是直接匯入母體資料進行建模程序。同時,母體資料不一定是資料庫裡的全體觀測值,端賴分析的主題來進行分析樣本的定義與確認。
擬定分析主題後,在正式進入分析之前,分析材料的準備是資料探勘中極重要的工作環節,分析者須針對欲研究主題列示一份的變數清單,應依分析目的與假設、研究對象與範圍等列式出研究主題可能的相關變數。
在SAS EM匯入分析資料後,建議讀者先運用幾個EM分析節點進行資料的檢視與瀏覽,檢視原始資料集其實是資料分析很重要的基本功能,可以培養對資料的敏感度,每一筆資料都是一個行為發生,透過直接的檢視資料,可以增加說故事的能力,甚至檢視資料的異常值,便於快速進行資料處理,以及有創意的衍生變數產生,產生精準的預測模型結果。
○ 某銀行過去在決定普卡客戶是否能升等白金卡時,總是請專員針對申請客戶的條件一一核對,判斷客戶是否可從普卡升等白金卡,但是這樣的方法: ● 浪費人力 ● 缺乏效率 ○ 於是,某銀行決定導入SAS Enterprise Miner希望能使用資料探勘的方法,從過去大量資料中: ● 找出升等白金卡的主要條件 ● 之後客戶申請時,能夠快速決定此客戶是否能升等白金卡
經過前面幾篇的學習,想必大家對於EM已經相當熟悉了! 接下來我們根據前面的資料,繼續教導一些資料探勘方法(決策樹與迴歸),讓你更加瞭解如何建立模型。
● 某公司過去在制定行銷策略時,只使用消費者的消費次數與消費間隔將消費者分群,再找出特定消費者的消費行為,這樣的分析方式: ○不易找出少數但對公司獲利有益的消費者 ○不易制定行銷策略 ● 於是,某公司現在決定導入SAS EG與EM,運用EG及EM: ○ 快速整理資料 ○ 用消費資料進行群集分析 ○ 繪製圖表
經過信度分析後,本單元要來教各位如何以因素分析來進行量表的項目分析 本篇文章Dr. SAS來教您 一 效度分析
寫論文一定會做問卷,都會有不同滿意程度的度量衡,如何做信度分析呢?本篇文章Dr. SAS來教您 一 信度分析
寫論文一定會做問卷,但好不容易搜集來的問卷,到底要怎麼統計才能找出結果呢? 本系列第一篇,要教大家 一 問卷資料的處理
Shewhart 管製圖是一種圖形化的分析工具,可用以判斷程序是否符合統計控制。 「平均值與標準差圖表」工作會建立子群組平均值與子群組標準差的平均值與標準差圖表。 這些圖表可用以分析製程的集中趨勢與變化性。您可以使用這項工作找出輸出分布,並決定程序是否符合統計控制。
我們在上一章談到如何建立與運用SAS EG 提示,使我們的程式在使用上更有彈性。除了之前介紹過的SAS EG日期提示外,SAS EG提示還可幫助我們更有效率的完成資料的篩選。例如,公司人事主管欲了解公司某個部門的人事資料,亦或是健保局想要研究資料庫中某種疾病患者的資料時,利用SAS EG的提示即可輕鬆且有效率的將所需資料絕攫取出來。 首先,由工具列上選擇檢視 → 提示管理員(圖1),在左下角的提示管理員(圖2)視窗按一下增加,在增加新的提示視窗的一般中鍵入提示名稱,我們就可以開始設定提示的內容了。 以下我們將以sashelp.class資料為例,示範如何利用SAS EG 提示篩選出資料集中男性的資料。 Sashelp.class資料集: 1.在圖3中,選擇提示類型和值,在提示類型選取文字,填入提示的方法選擇使用者從靜態清單中選取值,值數目選擇單一值 2. 建立靜態清單:按一下增加,在未格式化的值中鍵入「男」,再按一下增加,再鍵入「女」,最後按確定。 新建立的EG提示(gender_prompt)出現在左下角的提示管理員視窗中。 3.開啟或新增一個sas程式,程式中的聚集變數(&gender_prompt)名稱需與之前建立的提示名稱相同,如下例程式中所示範,利用此聚集變數作資料篩選,並且在報表的標題中標示出所選出的性別。 4. 關閉sas程式回到處理流程視窗,在程式的圖示上按右鍵,選擇屬性。 點選左側的提示,按一下增加。 選取之前建立好的gender_prompt提示,按下確定。 再按一次確定。 5. 處理流程中的SAS程式圖示右上角出現「?」符號,這表示SAS程式已成功與EG提示相連結。接著在程式的圖示上按右鍵,選擇在「Local」上執行「程式」 在提示中選擇要篩選的性別-男,按一下執行。 以上我們所介紹的是最基本的SAS EG日期提示的建立與使用,下一章我們將繼續介紹另外幾個常見的EG提示類型,讓使用者更加了解並運用。
在各種調查中,常常會以圖形來表達,今天要介紹的是台灣地圖的使用,在SAS的資料夾中有一個名為MAPS的資料夾,裡面放的是各國的地圖資料集,在台灣的部份,我們可以找到有兩個有關台灣的檔案(Taiwan , Taiwan2),第一個Taiwan的檔案放的是各個縣市的經緯度…等資料,Taiwan2放的是id及縣市的對照表。SAS在繪圖時是以id變數為依據,所以如果我們想要畫台灣地圖,一定要有一個變數名為id。
1. 點選 Enterprise Guide 右下方連接狀態欄,開啟 [連線] 視窗。 2. 在 [連線] 中,選擇 [增加] 鈕。 3. 建立設定檔時,輸入下列資訊後。選擇 [儲存] 鈕,儲存設定。 ● 設定檔名稱 ● 遠端 SAS 伺服器電腦名稱 ● 使用者 ● 密碼 4. 在 [連線]視窗 中,先勾選欲使用設定檔,再選擇 [設為作用中] 鈕,切換連線設定。再選擇 [關閉] 鈕,關閉[連線]視窗。 5. 檢視 Enterprise Guide 右下方連接狀態欄,即可獲得目前連線狀態。若是 Enterprise Guide 5.1 請將滑鼠停駐在連接狀態欄,可獲得連線狀態。
現代的資料量越來越大,所以如何有效率的執行工作將也是分析的一個重點,另外,將結果圖表作適當的呈現,是許多使用者時常遇到的問題。在此,將介紹大家SAS EG工具列中位於「工具」選單下之「選項」項目,它提供了一個範圍廣袤的多樣化選項設定,讓SAS EG使用者更容易上手! 1. 工具 → 選項 → 資料 → 一般資料 在工作視窗和查詢產生器中依字母順序顯示欄:設定依欄位字母順序顯示資料,而不是依它們出現在表格中的順序。這並不會影響工作的處理或結果的呈現。 使用標籤作為欄名稱:在查詢產生器及工作的資料頁面中顯示欄位標籤而非欄位名稱。在欄標題上按滑鼠右鍵,選取「屬性」可新增欄位標籤。 當處理的資料較龐大時,增加到專案時自動開啟資料及永遠取得DBMS表格的記錄總數這2個選項有時會耗費太多等待時間以及系統資源,因此不建議勾選。 接下來,我們可以設定開啟外部資料檔的方式,點選永遠匯入允許在匯入資料工作時,直接將外部資料檔案轉成SAS資料集,若選擇將檔案加入專案做為資料,則不會將開啟的資料檔轉成SAS資料集。外部資料檔案包含了.txt、.csv、.xls、.dat 和 .htm 檔案。 2. 工具→ 選項 → 資料 → 效能 我們在匯入資料時亦可設定顯示預覽的列數,若要預覽全部資料,可以點選無限制,但若檔案太大時,將會降低匯入資料工作的效能。此時,我們可以自行設定預覽列數。 3. 工具→ 選項 → 工作 → 一般工作 SAS EG也提供了工作輸出報表的標題及註腳設定,我們可以在下圖所示的文字方塊中輸入最多10行的標題及註腳。 另外,在SAS程序設定中,建議選擇使用PROC SQL來排序工作中的資料,而不使用預設的 PROC SORT。尤其是工作中的資料包含大型 DBMS 表格 (如 ORACLE 或 DB2 )時,使用
SAS EG 拖拉點選超好用,行家都知道, "SAS EG 20勝"明確具體地說出20點獨門功夫, 讓行家一用就愛上,再也捨不得離開SAS EG!! 1. 整理資料超容易,工具多元易上手! 資料的變數總是百百種,資料的選擇更是無奇不有!整理資料成了分析資料最大的障礙與時間成本,不管是合併、篩選、排序等,運用EG多元的資料整理選項工具,讓你整理資料無往不利!! 2. 增加變數好方便,運算建構好完整 資料中必定有類別變數與數值變數,生活中大大小小事都可能需要轉換,例如:溫度攝氏轉華氏、長度公尺轉公分等等,那這些要怎麼做分析呢?EG有各種各樣的函數可供您做資料轉換,更好的是分成三種轉換方式,彙總的欄、紀錄的欄、進階運算式,使用彙總的欄可幫你顯示基本的統計量值,如:總和等,紀錄的欄可幫你取代某一欄的一組數值,如:遺失值取代”未知”等,進階運算式可直接輸入更進階的運算方式來幫你轉換變數,簡單俐落的分類,幫你增加變數更順手!! 3. 合併資料好便利,欄位配對多選擇 我們常常發現需要分析的資料可能會出現在一個以上的資料表中,為了完成分析,可能需要將資料表合併在一起。很多分析工具都有此功能,但只是單純要合併在一個資料表中,還要依據自己的需求再自行將不需要的變數刪除,真的很麻煩!! SAS EG解決了這個問題,可以依照自己的需求選擇兩檔案要包含的變數和個數,只要一個步驟一個指令就可以完成,原來合併資料變得如此省時便利。 4. 分析程序流程化,簡單方便好明瞭 在使用統計軟體分析資料時,總是一種分析步驟一個輸出,假如我們做了30種分析,你還記得你第1個在做什麼分析嗎?SAS EG將我們的分析程序全部流程化,從匯入資料開始依照你的分析畫成樹狀圖,讓你可以清楚明瞭自己的工作情況,只要將想了解的工作塊點兩下,數據結果通通有。 5. 按鍵設計好介面,修改工作一鍵就OK 一般來說,執行一種分析就會有結果輸出,那結果並不是我們想要的呢?我們要如何去修改它?難道又要在執行一次?這樣太浪費時間了。SAS EG設計了一個修改工作的按鍵在我們的結果輸出內,只能點選它就可以重新修改想修改的分析,無需再重新點選分析花費不必要的時間,分析就是要快狠準。 6. 與SAS程式語言結合,分析能力超強大 SAS以SAS程式碼起家,對於統計分析的程式語言根本是所向披靡,也是大眾接觸SAS較多人懂得程式語言。目前人性化介面的統計工具中對於統計分析還是無法完全掌握,雖然其餘的也有程式碼匯入功能,卻較少人能理解。SAS EG可與SAS程式語言結合,再從中作插補,使SAS EG變得更所向無敵。 7. 提供分析名稱說明,介面設計好貼心 在做統計分析時,我們都需要勾選我們想呈現的分析結果與圖形,但你真的知道你勾選的到底是什麼嗎?會得到你想要的結果嗎?有許多不是統計本科系學生通常沒有這麼深入的統計知識,只能盲目的全部勾選,跑出一大堆不需要的結果與圖形。SAS EG貼心的在分析介面的下方,提供了名稱說明,只要游標指到的名稱他都可以像小博士一樣為你解答,避免勾錯選項。 8. 變數好多沒關係,交叉結果齊呈現 我們資料的類別變數常常會做交叉表來進行分析,例如:性別與年級的交叉表格。但每執行一次的交叉表分析,卻只能顯示一個表格,好沒效率喔!有沒有什麼辦法可以一次呈現多個表格以利比較呢?SAS EG在分析介面下方選單可加入你想顯示的變數結果,就可以在同一個輸出面一起呈現比較,真的好簡潔又好方便。 9. 貼心的提示管理員,圖形結果好彈性 統計分析中呈現圖形是非常重要的,因為圖形總是能一眼就能看出我們所要的結果。製作圖形時,每一次分析就跑出一個圖形,若要更換變數就必須要重新選擇分析才能跑出另一個圖形,造成了極大麻煩。在SAS EG的介面上多了一個貼心的提示管理員,只要下拉點選提示的變數,我們的圖形就會馬上換給你看。
SAS Enterprise Guide 提供不同的 task, 讓使用者藉由Enterprise Guide 的使用者介面執行不同的Enterprise Guide task 進行資料整理, 商業分析, 資料採礦, 統計分析, 圖表等工作.
學習 SAS Enterprise Guide 的基本概念 歡迎使用 SAS Enterprise Guide 入門教學課程。當您完成本教學課程中的主題後,您將學會如何使用 SAS Enterprise Guide 的主要功能。您應依照順序完成這些主題。 SAS Enterprise Guide 含有您在接受此教學課程時所將用到的範例資料。在範例資料目錄中有三個資料檔案,其中包含取自一間特色食品商店的資料: Products 含有產品資料的 SAS 資料集 Orders 含有產品銷售資料的 SAS 資料集 FixWidth 含有產品類別資料的文字檔 使用這項資料,可讓您執行分析及建立報表,以顯示產品的庫存、銷售與利潤。 您將會在教學課程的過程中,學習到如何執行下列作業: • 建立及儲存專案 • 將 SAS 資料新增至專案 • 從文字檔匯入資料 • 建立及修改清單報表 • 建立長條圖與圓形圖 • 使用查詢聯結表格 • 使用查詢建立計算欄 • 產生摘要統計表
您必須先新增資料至專案中,才能建立報表或執行分析。您可以增加 SAS 資料檔案和其他類型的檔案,包括 OLAP Cube、Information Map、ODBC 相容資料,以及其他軟體套件 (如 Microsoft Word 或 Microsoft Excel) 所建立的檔案。 當您開啟現有資料時,會自動新增資料的捷徑至目前的專案中,且資料會在資料格中開啟。在下列 [處理流程] 視窗中,有三個 SAS 資料集與一個已匯入 Microsoft Excel 資料檔案的捷徑。 接下來您將進一步瞭解 SAS Enterprise Guide 中的資料。
SAS 其他統計軟體 1 統計結果輸出完善,在進行分析時,所需的結果不需再另外的程序輔助 無法輸出完善的結果,還需其他的程序輔助 2 學習有簡易的圖形使用者介面和進階的程式環境,學習曲線適合各層次的使用者 一般只有單單的圖形使用者介面或是程式環境,使用不彈性 3 處理大量資料的分析能力,SAS在巨量資料預測分析市場中居領先地位,遙遙領先競爭者。 資料處理的分析能力較差,無法獲得良好及穩健的結果 4 歷史悠久,在各方面的統計支援完善,不論是生物統計、政府統計或是商業統計…等 支援的統計方法不全面,大多傾向某方面的統計分析 5 詳細的Help ,不單單僅是軟體的使用方法,還包含統計方法的介紹及許多範例的分析 僅講解使用介面與程式的方法,對於分析的步驟及統計方法還需另外查詢 6 豐富軟體使用教學的支援,SAS有許多書籍、使用教學影片、豐富的課程及論壇可供各層次的使用者學習 無大量的後續支援,除初階的使用及統計分析方法學習有支援外、若是進階的使用及統計方法則支援較少 7 支援平行運算,運算效率高 僅能單機運算,無法充分使用資源 8 支援多種資料格式,有一般的文字檔、ODBC、Excel、Access、OLE DB、MS SQL、Oracle、Sybase、HTML…等 軟體讀取資料格式不夠完全,若讀取到不支援的資料時則就無法進行分析 9 企業廣泛使用,世界前百大企業有97家採用SAS軟體作為分析的工具,在台灣的各大金融業、服務業及政府單位也都使用SAS軟體 大型企業的使用較不普遍,如要就業比較困難 10 好看的結果與圖形輸出,SAS能產生許多樣式及互動活潑式的結果 分析結果顯示較簡單且無互動的圖形分析結果 11 圖形使用者介面採取流程圖概念,分析流程一目了然 無顯示分析步驟,不易了解資料處理及分析的方法流程 12 自動化流程,重複分析簡單 重複執行分析不易 13 在處理資料,SAS語法支援SQL語法,在處理大量及複雜資料時較容易且效率高 在處理複雜資料時難度高且效率不佳