요즘 네이버, 구글 등 각종 검색 포털 창에 ‘데이터’를 입력하면 어떤 키워드가 가장 먼저 완성될까요? 빅데이터? 데이터 분석? 물론 두 단어의 인기는 산업을 불문하고 여전히 뜨겁지만😊 그 못 지 않게 2020년 1월, 화제의 중심에 선 키워드가 있죠. 최근 뉴스 기사들을 통해 모두가 짐작했을 주인공, 바로 ‘데이터 3법’입니다.
지난 1월 9일, 1년 넘게 계류되었던 ‘데이터 3법’ 개정안이 마침내 국회 본회의를 통과하며 이제 한국도 본격적인 데이터 경제 육성 사업을 위한 속도를 낼 수 있게 되었습니다. 데이터를 활용해 다양한 신사업과 서비스를 창출할 수 있는 길이 열리면서 데이터 3법의 통과는 업계의 큰 환영을 받고 있습니다. 그렇지만 기업들에겐 여전히 풀어야 할 큰 숙제가 남아 있는데요. 바로 고객들이 느끼는 개인정보 유출 및 오·남용에 대한 불안과 위협입니다.
데이터 관리 능력은 빅데이터 시대에 들어선 오늘날 모든 국가와 기업이 갖춰야 할 필수 역량이 되었습니다. 또한 기업들은 고객 신뢰를 기반으로 비즈니스를 지속하기 위해서 보다 정확하고 효율적인 데이터 관리(Data Management) 체계를 구축해야 합니다. 이미 ‘일반개인정보보호법(GDPR)’을 시행 중인 유럽을 비롯한 글로벌 국가들이 바라보는 2020년 데이터 관리 및 개인정보보호 트렌드와 전망, 향후 과제에는 어떤 것들이 있을까요? SAS의 데이터 관리 및 정보보호 솔루션 전문가, Todd Wright의 인사이트를 여러분께 공유합니다.
데이터 관리에는 다양한 분야가 존재하지만, 그 중 2020년을 이끌 4가지 주요 트렌드를 소개하면 다음과 같습니다.
- 데이터 오케스트레이션(Data Orchestration): 데이터 준비부터 탐색, 배포 및 의사결정에 이르는 전체 분석 라이프사이클 과정의 자동화를 의미합니다. 비슷한 방법론적 개념으로는 데이터옵스(DataOps)가 있는데요. 효율적인 데이터 운영 프로세스 구축을 위해선 여러 종류의 데이터 통합 및 API 통합, 데이터 이전 프로세스가 통합되어야 합니다. 이를 위해 기업은 온프레미스(on-premis) 및 클라우드 등 다양한 환경에서 데이터 관련 활동들을 조율할 수 있는 단일 통합 분석 플랫폼을 갖춰야 할 것입니다.
- 데이터 탐색(Data Discovery): 데이터 탐색은 기업용 소프트웨어에서 마치 ‘접착제(glue)’와 같이 매우 중요한 부분입니다. 데이터 시각화와 모델 개발을 포함하는 분석의 핵심 단계이지요. 기업은 데이터를 수집해 적절한 권한을 설정하고 보호하며, 고객이 쉽게 이해하도록 카탈로그를 제공할 수 있어야 합니다. 또한 고급분석을 통해 발견한 인사이트를 활용하면 일상적인 데이터 관리 작업을 자동화하고, 데이터에서 인텔리전스를 찾아낼 수 있습니다.
- 데이터 준비(Data Preparation): 데이터를 분석 및 비즈니스에 활용하기 위해서는 데이터 검색부터 접근, 구조화, 타입 조정, 필드 값 확인 등 굉장히 복잡한 전처리 단계들을 거쳐야 합니다. 실제로 여전히 수많은 분석가들이 이 과정에 시간을 쏟느라 정작 중요한 분석 업무들을 놓치곤 하지요. 인공지능(AI)을 활용한 데이터 클렌징 자동화 플랫폼을 구축하면 이러한 어려움을 해결하고, 나아가 전문 분석가가 아닌 일반 비즈니스 사용자에게도 쉽게 분석 업무를 확대할 수 있습니다.
- 모델 관리(Model Management): 분석 시장이 커지면서 오픈소스를 비롯한 다양한 언어의 분석 모델들을 통합적으로 관리할 수 있는 모델 관리 솔루션의 필요성이 더욱 강조될 것입니다. 또한 분석 결과를 운영 환경 및 의사결정에 적시에 활용하기 위해서, 기업들은 모델을 쉽게 등록, 수정, 배포 및 모니터링 할 수 있는 인프라와 역량을 갖춰야 합니다.
그렇다면 효율적인 데이터 관리를 위해 넘어야 할 과제는 무엇일까요?
- 세계경제포럼(World Economic Forum)에 따르면 2020년, 우리가 생성해내는 데이터 양이 무려 44제타바이트(Zettabyte, ZB)에 이를 전망이라고 합니다. 예를 들면 5억 개의 트윗(tweet)과 2,940억 통의 이메일이 매일 전송되는 셈이죠.
- 빅데이터는 유례없이 방대한 양의 데이터 및 각종 소스로부터 인사이트를 도출하는 데 핵심적인 역할을 합니다. 그렇지만 활용할 수 있는 데이터의 양이 많아진다 해서 기업의 인사이트가 저절로 증가하진 않습니다. 빅데이터의 잠재력은 우리가 데이터로부터 더 나은 인사이트를 찾아낼 수 있는 ‘분석 모델’을 개발할 수 있다는 데 있습니다.
- 결국 중요한 것은 분석 모델의 개발과 관리입니다. 데이터 접근, 통합, 클렌징 등 전체 과정을 아우르는 데이터 관리 솔루션을 제대로 갖추지 않은 상태에서 인공지능(AI) 및 머신러닝(ML) 도입은 큰 의미가 없다는 점을 기억해야 합니다.
소비자 개인정보보호(Data Privacy) 전망
개인정보보호 대한 인식과 법률 도입이 세계적으로 꾸준히 증가함에 따라, 기업들에게는 정보보호 기능을 기본으로 갖춘 데이터 거버넌스 프로그램 개발 과제가 주어졌습니다. 기업은 개인정보보호 표준과 프로그램 마련에 있어 적극적으로 움직여야 합니다. 그렇지 못한 기업은 각종 규제를 준수하지 못하고 결국 고객의 신뢰를 잃게 되겠지요.
장기적인 관점에서 보면 한국도 GDPR의 영향권에 속해 있습니다. GDPR에 명시된 바와 기업들은 의사결정 과정에 AI와 고급분석을 활용하면 규제 준수에 큰 도움을 받을 수 있습니다. 특히 고객 데이터를 기반으로 의사결정을 내릴 때 인종, 성별, 국적 및 연령과 같은 부분들에 편견이 반영되지 않도록, 투명하고 해석 가능한 AI 기술과 알고리즘을 강화하는 데 유의해야 할 것입니다.