![]() |
十分感謝成功大學環境醫學所博士班候選人鄭雅勻熱心分享實作經驗範例~
希望藉由此經驗分享讓您練就分析資料的功力!
|
【從眾多資料中建立研究假說初步資料處理與合併檔案】
STEP0.”指派專案資料館”可以讀取”資料與檔案”、儲存”輸出SAS資料與檔案”
![1-1 1-1](https://blogs.sas.com/content/sastaiwan/files/2020/02/544a2653b2399.jpg)
![1-2 1-2](https://blogs.sas.com/content/sastaiwan/files/2020/02/544a2654874c3.jpg)
![2 2](https://blogs.sas.com/content/sastaiwan/files/2020/02/544091c977eb4.jpg)
![3 3](https://blogs.sas.com/content/sastaiwan/files/2020/02/5440931d4db9a.jpg)
![4 4](https://blogs.sas.com/content/sastaiwan/files/2020/02/54409320c00aa.jpg)
◆ 此處以健保1000人教學檔中1996年-2001年CD檔(門診處方及治療明細檔)為舉例
![5 5](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406ca30bd75.jpg)
STEP1.將武功祕笈對照放在旁邊;拖曳健保資料原始檔案文字檔(.dat)到”處理流程區”,就會出現”匯入資料”
① ”指定資料”將”輸出SAS資料集”,經由”瀏覽”指定另存新檔位置&給予新檔案名稱。(Ex: 存於DM資料館-另存新檔命名為TDB_CD1996. sas7bdat)
![6 6](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406ca462adb.jpg)
![7 7](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406ca562da4.jpg)
STEP2.使用”固定欄位”模式:對照秘笈的變項”長度”定義黑色切割線位置,架構變數欄位。
(例如:CD檔(門診處方及治療明細檔)其中”FEE_YM”(費用年月)長度為6始末位置是1-6;
則在SAS-EG裡面的第6位元的位置點一下,就會出現黑色切割線。如果有點錯位置只要滑鼠左鍵點住黑色切割線即可以左右挪動唷!!)
![8 8](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406ca6abac2.jpg)
STEP3. 定義欄位屬性:
(例如:CD檔(門診處方及治療明細檔)中”FEE_YM”為英文欄位”費用年月”為中文欄位;分別填寫進去SAS-EG的”名稱”與”標籤”。
注意格式正確性:承保資料檔中”C”為”類別/字串”;承保資料檔中”N”為”連續/數字”;日期變數只要格式無誤匯入SAS-EG應該就會自動辨識為”日期”變數。)
![9 9](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406ca82db9c.jpg)
STEP4. CD檔(門診處方及治療明細檔)中表頭總長度”300”填入SAS-EG的”文字欄的最大紀錄長度位元組”(代表每一筆個案資料總共只有300個字元):
以利SAS-EG辨識區分每一筆不同個案之資料。
![10 10](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406ca9b2b78.jpg)
STEP5. 依樣畫葫蘆:將前面步驟建立切割好欄位的”匯入資料”格式,點選滑鼠右鍵後按”複製”!
![11 11](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406cab1aa28.jpg)
STEP6. 在尚未處理的原始資料(.dat)上面點選選滑鼠右鍵後按”貼上”!
![12 12](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406cac16b61.jpg)
STEP7. 在新的原始資料後面所貼上的”匯入資料”格式上面點滑鼠右鍵後按”執行”!
![14 14](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406cae2b109.jpg)
STEP8. 陸續一一完成所有欄位格式相同的”複製”+”貼上”+”執行”步驟!
![15 15](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406caf45a8d.jpg)
STEP9. 乾坤大挪移心法:對照coding book確認切割欄位是一致的,即可以利用”工作”➔”資料”下面的”附加表格”,
將1996年-2001年CD檔(門診處方及治療明細檔)合併成一個資料檔案;以利後續的資料處理與分析!
![16 16](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406cb196e31.jpg)
STEP10. 由於上面複製貼上步驟,所以另存新檔名稱都跟隨第一次所建立的(TDB_CD1996…)接續命名;在”表格”部分點選所有欲合併的資料檔案(使反白)。
![17 17](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406cb2d20f7.jpg)
STEP11. 在結果部分點選”結果集格式”為”資料表格”,指定”輸出資料的位置”與”儲存檔案”名稱”CD_1996_2001”;完成後按”儲存”並且”執行”。
![18 18](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406cc1540b9.jpg)
STEP12.:
◆ 最終以對照健保資料庫釋出時給予的原始”教學資料清單”excel. (檔案名稱、資料筆數、檔案大小),確認SAS-EG切割並且合併之資料正確性(筆數)。
◆ 1996年-2001年CD檔(門診處方及治療明細檔):共有 76163筆!!就恭喜您練就乾坤大挪移招式啦!
![19 19](https://blogs.sas.com/content/sastaiwan/files/2020/02/54406cc389c05.jpg)
Hint:
◆ 當申請的資料為百萬歸人檔/專案申請的DVD光碟檔(4.7G),每個年度每種類型資料釋出可能為四萬人至五萬人一個檔案/一張光碟;所以百萬人檔案每年度就會有20~25個,累積起來數量相當的可觀。[例如:六個年度的百萬人CD檔(門診處方及治療明細檔)1996年-2001年*25個檔案=150個檔案!]
◆ 此時就是使用”健保資料庫系列”的時機:”複製”+”貼上”+”執行”步驟切割欄位資料&附加表格合併原始資料,就相當的快速且便利喔!圖形化介面也協助您一目了然處理流程唷!
Tags