SAS Viya로 시민 데이터 사이언티스트 도전하기!

0

데이터 문해력과 SAS Viya 플랫폼

‘데이터 문해력과 시민 데이터 사이언티스트(이하 CDS)의 필요 역량’이라는 지난번 블로그 포스팅에 이어, 이번에는 데이터 문해력을 기반으로 CDS를 지원하는 기반 플랫폼 ‘SAS Viya’(쌔스 바이야)의 주요 특징들을 살펴보겠습니다. SAS Viya는 인 메모리, MPP 환경과 Cloud Native 등 최신 기술을 기반으로, 분석의 생애 주기인 데이터 접근, 전 처리, 모델 생성 및 배포, 모델 관리 등에 이르는 전과정을 하나의 통합 플랫폼으로 제공하는 SAS의 제품입니다. 또한 AI/ML을 구현한 많은 고객이 느끼고 있는 기술적 부채 (주1)를 해결할 수 있는 ‘ModelOps’(주2)도 SAS Viya 상에서 구현할 수 있습니다. (그림 1)

그림 1) Viya Platform 기본 구성도
주1) 기술적 부채는 파이썬이나 R 등의 도구를 사용하여 AI/ML의 모델을 개발하고 적용한 경우 데이터 수집, 테스트, 자원 관리, 데이터 검증 및 인프라 등이 체계적으로 관리되지 않아 지속적인 개발과 적용 및 유지 보수가 힘들어지는 상황을 의미합니다.
주2) ModelOps는 다음 블로그에서 필요성, 정의 및 SAS Viya에서의 실현 방안에 대해 소개할 예정입니다.

데이터 문해력을 지원하는 SAS Viya의 기능

다음으로는 데이터 문해력을 위해 SAS Viya가 제공하는 기능에 대해 알아보겠습니다. 아래 표는 각 단계와 활동에 대해 SAS Viya에서 제공하는 기능을 요약한 것입니다. (표1 참조)

표1) 주요 활동 별 SAS Viya 제공 기능

위의 표에 맞추어 SAS Viya가 제공하는 주요 기능을 상세히 살펴보겠습니다.

1)  ‘Information Catalog’는 기업내에서 관리하고 있는 데이터에 대한 메타 데이터와 색인을 관리하여, CDS가 필요한 데이터를 손쉽게 찾을 수 있는 기능과 개인 정보 보호와 관련된 정보, 예를 들어 검색된 항목에 대한 개인 정보 보호 해당 여부 등에 대한 정보를 제공합니다. (그림 2)

그림 2) Information Catalog를 통한 검색 및 상세 조회

2) ‘Data Profiling’은 데이터를 자동으로 탐색하여 숫자 유형의 경우 평균, 최대 및 최소값 등의 기초 통계 정보를 제공하고 문자형인 경우 그 빈도와 패턴 등을 제공하는 것입니다. 이로써, 데이터의 상태와 이해도를 높이고, 활용 가능, 정제 및 표준화 등의 필요성 여부를 결정할 수 있습니다. (그림 3)

그림 3) 데이터 프로파일

3) ‘Visual Analytics’은 데이터를 시각적으로 탐색하는 기능을 제공하며, Auto ML 기반의 자동화 추천 및 분석을 통해 손쉽게 데이터 항목 간의 상관 관계, 분포 등을 시각적으로 인식할 수 있도록 해 줍니다. 이를 통해 데이터에 대한 이해도를 더욱 향상시킬 수 있습니다. (그림 4)

그림 4) Visual Analytics의 데이터 중요도 분석

4) ‘데이터 전처리’ 기능으로 프로그램 없이 데이터의 변환, 정제, 필요 속성 생성, 표준화 등의 작업을 수행하여 학습에 필요한 데이터를 생성합니다. 또한 자동 데이터 전 처리 추천 기능으로 위의 작업을 손쉽게 진행할 수 있습니다. (그림 5)

5) ‘모델 생성 파이프 라인’과 ‘Auto ML 기반의 자동화’로 템플릿 기반과 자동 Pipeline 생성을 통한 자동 학습 알고리즘 선택, 자동 피처 엔지니어링, 자동 컬럼 선택과 자동 조율 등의 기능을 제공하며, 이를 통해 손쉽게 예측 모델을 생성할 수 있습니다. (그림 6,7)

그림 6) CDS를 위한 Pipeline

그림 7) 예측 모델 생성을 위한 Pipeline

6) ‘모델 레포지토리’는 생성한 모델과 그와 관련된 데이터 또는 문서 및 모델 버전 등에 대한 통합 관리 기능과 함께, 관리되고 있는 모델 현황에 대한 대시보드도 제공합니다. (그림 8)

그림 8) 모델 레파지토리

7) 최근 화두가 되고 있는 모델의 윤리, 규제, 법률 및 투명성을 위해 모델의 해석성 기능을 제공합니다. 이를 위한 근거 정보 및 업무 전문가에게 예측의 근거 등을 데이터 중심으로 제공함으로써 모델에 대한 이해도를 높이며, 적용 여부의 협의 및 의사결정에 근거 자료로 활용할 수 있습니다. (그림 9)

그림 9) 모델의 해석성

8) ‘승인 자동화 및 자동 배포를 위한 Workflow’ 기능을 제공하여, 이해 관계자의 모델 적용 여부를 검토 후 승인하거나 거절함으로써 자동 배포 및 재모델 등의 작업을 수행할 수 있습니다. (그림 10)

그림 10) 모델 배포 승인을 위한 Workflow

9) ‘모델의 성능 모니터링’을 통한 다양한 평가 지표를 기본 대시보드와 사용자 맞춤 대시보드 작성 환경으로 제공함으로써 지속적인 모델 및 업무의 개선을 지원합니다. (그림 11)

그림 11) 모델 성능 대시보드

10) ‘모델 모니터링’을 통해 사전 정의된 기준에 따라 자동 재학습 및 재학습을 위한 경고를 생성하며, 이를 바탕으로 CDS가 재학습 여부를 손쉽게 인지하고 결정할 수 있습니다. (그림 12)

그림 12) 모델의 자동 재학습

이상으로 최근 화두가 되고 있는 CDS의 필요 역량인 데이터 문해력과 이를 실현시켜 주는 SAS Viya의 주요 기능에 대해서 알아보았습니다. 최근까지 많은 기업에서 CDS의 양성을 위해 파이썬 등 AI/ML 수행을 위한 프로그램 기술을 학습시켜 왔습니다. 하지만 많은 사례가 성공하지 못했습니다. 그 원인이 데이터 사이언티스트와 CDS의 차이에 대한 이해 부족에 있습니다. 즉, 그 차이를 충족시킬 수 있는 필요 역량과 이를 극복하기 위한 방안 및 도구의 필요성을 올바로 인식하지 못하는 것이 가장 큰 요인이라고 생각됩니다. 필자가 보는 현재 기업에서 CDS의 양성을 위해 필요한 것은 Python 또는 R과 같은 프로그램 지식의 습득 보다는, 데이터 문해력에 대한 이해와 이를 위한 최소한의 지식의 학습이라고 판단됩니다. 학습된 지식을 바탕으로 자동화 및 지능화된 도구를 활용하여, 데이터 기반의 활동, 협의 및 의사 결정을 수행할 수 있는 인력의 양성과 문화의 정착이 중요하다고 생각합니다. SAS Viya는 이러한 목표를 달성할 수 있도록 지원해 주는 자동화 및 지능화를 갖춘 도구임을 다시 한번 강조 드립니다. 또한 SAS Viya는 초반에 언급했던 기술적 부채를 해결할 수 있는 ModelOps의 기반 플랫폼이기도 합니다. ModelOps에 대해서는 다음에 한번 다루어 보도록 하겠습니다.

 

Share

About Author


Changsuk Roh is a ML Engineer of Customer Advisory at SAS Korea, where he is in charge of presales to define system and solution architecture to solve customer problems. He has diverse experiences years from system engineer, application developer, data warehouse and BI consultant to data scientist. Since Joining at SAS 2017, he has worked for platform team in CA.

Related Posts

Leave A Reply

Back to Top