데이터 문해력과 시민 데이터 사이언티스트의 필요 역량

1

이전에 포스팅했던 시민 데이터 사이언티스트(Citizen Data Scientist, 이하 CDS)에 대한 블로그에서 CDS가 갖춰야 할 기본 역량이 Data Literacy(한글로는 데이터 문해력으로 번역/이하 데이터 문해력)라고 소개했었습니다. 참고로 ‘문해력’이란 단어는 글을 읽고 이해하는 능력을 의미하는데, 데이터를 다룰 때도 마찬가지로 데이터를 읽고 이해하는 능력이 중요하기 때문에 이러한 용어를 사용해도 큰 무리는 없으리라 판단됩니다. 이번 글에서는 데이터 문해력의 정의와 필요 역량 또는 기술과 CDS가 담당하는 주요 활동 및 관련 기술에 대해 알아보겠습니다. 다음 시리즈에서는 이를 실현할 수 있는 SAS 바이야(Viya) 플랫폼의 기능에 대해서 설명하도록 하겠습니다.

데이터 문해력의 정의 (Data Literacy)

독일의 Jena 대학에서는 데이터 문해력을 “데이터를 조직적으로 다루고, 적극적으로 활용하며, 해당 분야의 맥락에서 질문하는 능력으로 이는 데이터를 수집, 탐색, 관리, 분석, 시각화, 해석, 맥락화, 평가하고 적용하는 능력을 포함한다”라고 정의하였고(출처 : Hochschulforum Digitalisierung, 2017), 다른 저서에서는 “데이터 수집, 분석 및 해석을 하고, 이를 바탕으로 의사결정을 내리기 위해 분석적 사고(주1)를 기반으로 시각화를 통한 다양한 데이터를 이해하고 활용하는 능력을 의미한다.(Data Literacy In Practice, 2022, Angelika Klidas, Kevin Hanegan 공저)”로 정의하였습니다.

데이터는 우리 주위에 항상 존재하고 우리는 의식적으로나 무의식적으로 데이터를 활용하고 이를 이용해 상대방과 대화를 하고 있죠. 하나의 예시를 들어보겠습니다. 혈압이 있는 환자에게 가끔 담당 의사가 한달 간의 혈압을 아침과 저녁으로 검사해서 가져오라고 합니다. 일반적으로는 테이블 형태로 데이터를 제시(표1)하지만 한 환자는 엑셀에 그래프의 형태로 제시하였습니다. 그것을 본 의사는 이런 형태로 가져온 사람은 처음이라고 했다고 합니다. 이는 데이터의 이해를 기반으로 시계열 그래프를 이용하여 데이터의 문맥을 시각적으로 연결한 것입니다. 이 그래프는 혈압이 안정적인 흐름인지, 최고와 최저 혈압 차이가 정상적인지 등을 의사로 하여금 빨리 이해하게 하며, 환자의 혈압 패턴 및 상태를 시각화하여 직관적으로 파악하게 해 줍니다. (그림 1 참조). 이런 사례가 일종의 데이터 문해력이라고 할 수 있겠습니다.

표1) 일반적인 제공 형태

그림1) 시계열을 이용한 혈압의 변화 추이 및 각 지표 간의 상관 관계

그럼 기업 관점에서 데이터 문해력은 무엇이라고 정의해야 할까요? 필자는 “문제해결이나 의사결정 등을 위해 데이터의 이해와 분석적 사고(주1)를 기반으로 데이터를 수집, 탐색, 분석, 시각화, 해석, 맥락화하고, 이를 평가 및 적용하는 능력”이라고 정의하고 싶습니다. 이는 최근 많은 기업에서 양성하는 CDS가 갖추어야 할 능력으로 판단되며, 데이터 기반의 의사결정, 문제 해결 및 사업 성과를 개선하는데 많은 도움을 줍니다.

주1) 분석적 사고는 문제 해결이나 의사 결정을 위한 과정 중 다양한 측면을 고려해 데이터의 수집, 분석을 통한 증거 및 패턴을 식별하고, 원인과 결과를 추론하여 해결책을 찾기 위해 체계적으로 접근하는 능력을 의미

CDS의 필요 역량, 기술 및 관련 활동

데이터 문해력을 갖추기 위한 조건을 다수의 저서나 관련 문서에서는 필요 역량(Competency), 능력(Capacity), 지식(knowledge) 및 기술(Skill) 등으로 다양하게 표현하고 있는데, 이 중 몇 가지를 알아보겠습니다.

위에 소개했듯이, 독일 Jena 대학에서 정의한 데이터의 수집, 분석 시각화 등의 능력이나 역량 이외에도 통계, 디지털 기술 및 시각화 등에 대한 지식 뿐만 아니라, 비판적 사고, 윤리 등의 다양한 개별 역량을 포함합니다. (그림 2)

그림 2) 데이터 문해력과 관련된 역량 (출처: Volker Schwartze)

기술 관점에서 보면 분석, 소통 및 설계 기술이 필요하며(그림 3), 분석의 이해를 기반으로 한 소통, 소통을 위한 시각화 기반의 스토리 텔링, 분석 결과의 명확성을 위한 설계 등의 교차 영역이 있고 그 중심에 데이터 문해력이 있습니다.

그림 3) 데이터 문해력에 필요 기술 (출처 1 참조)

데이터 문해력의 주요 4대 실행 요소를 보면 첫번째, 데이터를 읽어 그 의미를 이해하는 것(READ THE DATA), 두번째, 데이터의 처리(WORKING WITH DATA)을 통해 수집, 생성, 정재 등을 수행하는 것, 세번째, 데이터를 분석(ANALYZE THE DATA)하여 의미 있는 패턴이나 인사이트를 발견해 내는 것, 네번째 이해관계자와 데이터로 협의 및 스토리 텔링(ARGUE WITH DATA)을 하는 것입니다. (그림 4)

위의 역량과 기술을 이용하여 데이터 문해력을 기반으로 다음과 같은 주요 활동들을 실행할 수 있습니다.

첫번째, 데이터 수집 및 정리로 이 과정에서 데이터의 종류, 형식, 특성 등을 이해하고 분석에 필요한 데이터를 선택 및 정재합니다.

두번째, 데이터의 분석으로 데이터의 패턴을 파악하고 인사이트를 도출하는 과정에서 통계, 머신 러닝 및 데이터 시각화 기술을 이용하는 것입니다.

세번째 데이터 시각화로 발견한 패턴 및 인사이트를 시각적으로 이해하기 쉽게 제시하고, 이해관계자가 인사이트를 발견할 수 있도록 도움을 주는 것입니다.

네번째 데이터 커뮤니케이션으로 시각화한 분석 결과를 다른 이해관계자와 공유하고 간결하고 명확하게 설명하는 것입니다.

다섯 번째 지속적인 학습으로 빠르게 변화하는 분석 분야에 대해 꾸준히 학습하는 것입니다.

여섯 번째는 데이터 보안 및 개인정보 보호로 분석을 수행할 때 데이터 보안 및 개인정보 보호에 대한 고려가 필요합니다.

CDS와 데이터 문해력

학계와 시장에서 언급한 CDS의 필요 역량과 활동 등을 고려하여 기업내의 관점에서 보면, CDS는 특정 현업 담당자나 부서의 분석가들이 주로 그 역할을 수행하기 때문에 데이터를 이해하는 능력은 이미 갖추어졌다고 볼 수 있겠습니다. 필자가 모 기업에 CDS를 위한 SAS Viya의 도입을 진행할 때를 되돌아보면, BI(Business Intelligence) 사용자(주2)가 SAS Viya를 사용하여 예측 모델을 손쉽게 생성하고, 그 데이터에 대한 이해를 기반으로 생성된 모델의 의미(설명성 및 해석성)를 이해했던 경험이 있습니다. 이러한 사항을 고려하여 CDS의 주요 활동과 필요 지식을 데이터의 수집, 분석과 적용 관리 단계별로 요약하면 다음의 표(표3)로 표현될 수 있겠습니다.

표3) CDS 관점에서의 문해력의 활동 및 필요 지식
주2) BI 사용자 : 부서 또는 업무 영역의 분석가로, 보고서 작성 및 OLAP 도구를 활용하여 문제에 대한 원인 분석 등을 수행하는 사용자를 의미하며 해당 영역의 데이터에 대한 이해도가 높음.

위의 활동과 필요 지식을 보면 CDS와 기존의 Data Scientist가 하는 활동은 거의 동일합니다. 차이점은 CDS는 업무 지식과 데이터에 대한 이해도가 Data Scientist보다 높은 반면, 필요 지식이 Data Scientist보다는 깊지 않아도 된다는 점입니다. 그리고 Auto ML과 Visual 도구의 기능이 수집 및 분석 단계의 많은 활동을 자동화하고 Program-less 환경을 제공하기 때문에, 필요 지식에서 언급한 영역에 대한 기초 지식을 습득한다면 BI 사용자 또는 업무 분석가(Business Analyst) 들이 데이터 사이언티스트가 하는 작업을 손쉽게 할 수 있다는 것입니다.

확실히 이전 시대에 비해 시민 데이터 사이언티스트에 대한 진입 장벽이 낮아졌고, 지금 업계에서는 CDS에 대한 수요가 더욱 증가할 것으로 전망되고 있습니다. 데이터 문해력을 갖추고 있는 현업 담당자나 업무 분석가들은 충분히 CDS에 도전해 볼만 합니다.

이제 다음 글에서는 CDS를 지원하는 SAS Viya제품의 특징들을 소개해 드리겠습니다.

Share

About Author


Changsuk Roh is a ML Engineer of Customer Advisory at SAS Korea, where he is in charge of presales to define system and solution architecture to solve customer problems. He has diverse experiences years from system engineer, application developer, data warehouse and BI consultant to data scientist. Since Joining at SAS 2017, he has worked for platform team in CA.

Related Posts

1 Comment

  1. Pingback: SAS Viya로 시민 데이터 사이언티스트 도전하기! - SAS Korea Blog

Leave A Reply

Back to Top