데이터 매니지먼트가 중요한 이유
우리는 지금 데이터가 사회와 경제를 움직이는 ‘데이터 이코노미’ 시대에서 살고 있다. 시장조사업체 IDC는 전 세계 데이터 양은 매년 약 30% 증가해 2025년에는 현재보다 10배 늘어난 163제타바이트(ZB)에 이를 것으로 전망했다. 이처럼 폭증하는 빅데이터를 가트너(Gartner)에서는 ‘21세기 원유’로 규정하기까지 했다. 하지만 이제는 빅데이터를 단순한 ‘콘텐츠’가 아닌 ‘프로세스’와 ‘인프라’ 관점에서 바라봐야 할 때가 아닌가 싶다.
모든 데이터는 대기 시간과 유효 기간의 속성을 갖고 있어 시간이 지나면 가치를 잃게 된다. 데이터가 생성되는 속도만큼이나 이를 신속하게 처리하고 이용할 때만이 데이터는 의미를 지닌다.
이를 위해선 지금껏 경험하지 못했던 새로운 데이터 매니지먼트가 필요하다. 데이터(Data)-탐색(Discovery)-배치(Deployment)에 이르는 전체 라이프사이클을 유기적으로 연계해 하나의 프로세스로 통합 및 최적화하여 데이터 가치를 극대화해야만 한다. 그러기 위해서는 프로세스와 인프라 관점에서 데이터에 접근해야 한다. 빅데이터에 대한 시각을 단순한 ‘원유’에서 ‘21세기 하이웨이’로 전환해야 하는 이유이다.
그렇다면 데이터를 어떻게 관리해야 할까? 데이터 매니지먼트를 위한 각 요소의 명확한 정의와 함께, 성공적인 데이터 매니지먼트를 위해 필요한 기술과 노력을 살펴보자.
데이터 액세스(Data access)
데이터 액세스는 특정 출처에서 정보를 가져올 수 있는 조직의 역량을 의미한다. 데이터베이스 드라이버나 문서 변환기 같은 기술을 사용하면 최대한 쉽고 효율적으로 데이터에 액세스할 수 있다. 데이터를 찾느라 허비하는 시간을 최소화할 수 있는 것이다. 데이터 매니지먼트에서 우수한 데이터 액세스 기술은 조직이 사용 가능한 다양한 스토리지 장치나 형식에서 유용한 데이터를 추출하는 데 필수 요소이다.
데이터 통합(Data integration)
필요한 데이터에 액세스하고 난 뒤에는 액세스한 데이터를 다른 데이터와 결합해 통합된 결과를 제공해야 한다. 데이터 통합은 이러한 작업을 정의한 프로세스이다. 주로 ETL(extract, transform and load/ 추출, 전환, 로드)과 ELT(extract, load and transform/ 추출, 로드, 전환) 도구를 사용해 데이터 통합을 설계하고 자동화한다. 최근에는 인메모리 서버를 사용하게 되면서 기존 데이터베이스를 완전히 우회해 데이터를 메모리에 곧바로 로드할 수 있게 됐다.
통합된 데이터는 의사 결정에 보다 유용하게 적용할 수 있다. 예를 들어, 하나의 데이터 세트에는 고객 이름과 주소 목록이, 다른 데이터 세트에는 고객이 온라인에서 수행한 활동과 고객 이름 목록이 있다고 가정하자. 각 데이터 세트만으로도 중요한 정보를 확보할 수 있지만, 이 두 데이터 세트의 요소를 통합하면 ‘최고의 고객은 누구인가?’, ‘NBO(Next Best Offers, 다음 번 구매를 유도하는 최적의 상품 제안)는 무엇인가?’와 같은 질문에 답할 수 있게 된다. 각 데이터 세트에 포함된 주요 정보를 결합해 최적의 고객 환경을 구현할 수 있는 것이다.
데이터 품질(Data quality)
데이터 품질은 데이터 정확성과 유용성이 원래 목적에 잘 부합하도록 보장하는 활동으로, 데이터 매니지먼트의 모든 단계에 적용되어져야 한다. 데이터 품질에 대한 활동은 데이터에 액세스하는 순간부터 시작되며, 다른 데이터와 다양한 통합 지점을 거치는데, 데이터를 게시하기 이전 시점은 물론, 보고 시점, 다른 대상에서 참조되는 시점에서도 계속된다.
데이터가 부정확하거나 사용할 수 없는 상태라면 해당 데이터의 가치는 떨어진다. ‘123 MAIN ST Anytown, AZ 12345’라는 텍스트가 들어 있는 파일이 있다고 가정하자. 컴퓨터는 이 정보를 저장했다가 사용자에게 제공할 수 있다. 하지만 추가적인 도움이 없다면 이 레코드가 주소인지, 이 주소에 주(州) 정보가 포함되어 있는지, 해당 주소로 발송한 우편물이 제대로 도착할지 등을 확인할 수 없다. 표준화, 구문 분석, 검증 작업을 일관성 있는 방식으로 자동 실행하는 데이터 품질 솔루션을 사용해 단계마다 데이터 품질 작업을 수행한다면 고객 메일을 잘못된 주소로 발송하는 위험을 없앨 수 있다.
데이터 거버넌스(Data governance)
데이터 거버넌스는 사람, 정책, 프로세스, 기술로 이뤄진 프레임워크로 조직의 데이터 매니지먼트 방식을 규정한다. 데이터 전략을 비즈니스 전략과 조율하는 방법이기도 하다.
데이터 거버넌스는 기본적으로 각종 규정 준수를 위해 반드시 필요하다. 데이터 거버넌스 도구를 활용하면 정책을 통제 및 관리하고, 정책 처리 방법을 추적하며 감사용 보고서를 전달할 수 있다. 그리고 데이터 품질과 마찬가지로 데이터 거버넌스 대시보드를 생성해 정책 준수 현황을 모니터링할 수 있다.
데이터 페더레이션(Data federation)
데이터 페더레이션은 특수한 유형의 데이터 통합이다. 앞서 언급한 ETL과 ELT 형식의 데이터 통합은 데이터를 조합한 후, 나중에 사용할 수 있도록 다른 위치에 저장한다. 따라서 데이터를 이동시키고 저장하기 전에 단순히 조합된 결과를 사전에 확인하고 싶은 경우, 데이터를 요청한 바로 그 순간에 조합된 데이터에 액세스할 수 있다.
요청 시점의 데이터 소스 상태를 토대로 결과를 생성할 수 있으므로 정보를 더 적절한 시점에 더 정확히 파악할 수 있다. 이 외에 데이터를 복사하거나 이동하지 않고도 데이터 소스를 참조하고 조정할 때 사용하면 데이터를 전송하지 않고도 데이터가 상주하는 곳에서 데이터를 처리할 수 있다.
마스터 데이터 매니지먼트 (Master data management)
마스터 데이터 매니지먼트는 조직의 모든 영역에서 공통적이고 필수적인 전체 데이터를 정의, 통합, 관리할 때 사용하는 프로세스와 기술 세트이다. 일반적으로 마스터 데이터는 흔히 ‘마스터 데이터 매니지먼트 허브’라는 단일 위치에서 관리하는데, 데이터 매니지먼트 허브는 중요한 데이터를 전사적으로 일관성 있게 게시하고 공유할 수 있는 공통 액세스 포인트 역할을 한다.
마스터 데이터 매니지먼트를 활용하면 누구든 동일한 필수 데이터 버전을 사용할 수 있다. 예를 들어 마스터 데이터 매니지먼트가 없다면 보험에 가입한 고객이 계속 동일한 보험사로부터 보험 가입을 권유하는 마케팅 자료를 계속 수신할 수도 있다. 이는 고객 관계 데이터베이스와 마케팅 데이터베이스에서 관리하는 정보가 연결되지 않아서 발생하는 문제로, 동일한 고객 기록을 둘로 나눠 관리함으로써 고객의 혼란과 짜증을 유발할 수 있다. 하지만 마스터 데이터 매니지먼트를 활용하면 모든 조직 시스템과 데이터 소스를 연결해 일관성 있게 관리할 수 있다.
데이터 준비(Data preparation)
데이터 준비는 비즈니스 프로세스에서 사용하기 전에 데이터를 혼합, 구성, 정리하는 작업이다. 여기에는 다양한 소스의 데이터를 조합한 뒤 이 데이터를 정리 및 변환하여 분석이나 다른 비즈니스 목적에 맞게 준비하는 과정이 포함된다. 데이터 준비는 서비스 기반으로 이뤄지므로 비즈니스 사용자는 코드 작성과 IT 오버로드 없이 필요한 데이터에 액세스하고 이를 조작할 수 있다.
조직은 데이터 매니지먼트에 필요한 기술 격차로 불필요한 데이터를 아주 많이 생성하고 있다. 그로 인해 비즈니스 사용자는 데이터에 적시에 액세스할 수 없고, 데이터 사이언티스트는 분석 정보 생성이 아닌 데이터 준비에 시간을 낭비하게 된다.
우수한 데이터 준비 도구는 일반적인 데이터 준비 작업에 따르는 단조로운 작업을 없애 주고, 매우 명료한 데이터를 생성하여 계속해서 가치를 더한다. 비즈니스 사용자에게 힘을 부여하고 IT 직원들이 전략적인 프로젝트에 집중할 수 있도록 지원함으로써 데이터 준비에 필요한 기술 격차를 해소하고 신뢰할 수 있는 데이터에 빠르게 액세스할 수 있다.
지금까지 데이터 매니지먼트를 위한 주요 요소와 관련 기술을 간단히 살펴봤다. 성공적인 데이터 매니지먼트를 위해서는 데이터 매니지먼트와 관련된 모든 영역을 두루 고려해야만 한다.
다행히 데이터 매니지먼트 관련 기술과 도구는 발전을 거듭하고 있다. 특히 SAS 데이터 매니지먼트를 활용한다면 필요에 따라 그때그때 데이터를 가져올 수 있으므로 의사결정에 확신을 더하고, 데이터 중심의 비즈니스를 원활하게 운영할 수 있다.