데이터 프로파일링, 빅데이터를 이해하는 쉬운 방법

0

여러분은 ‘프로파일링(profiling)’하면 뭐가 제일 먼저 생각나나요? 아마 많은 분들이 범인을 추적하는 범죄 프로파일러(profiler)를 떠올릴 것 같은데요. 맞습니다. 프로파일링은 범죄 현장과 증거를 분석해 용의자의 범행 수법은 물론 성별, 나이, 습관, 성격, 직업 등을 추론하고 범인을 찾아내는 범죄 수사 기법 중 하나인데요. 최근 범죄 심리학을 다룬 드라마와 영화가 큰 인기를 끌며 대중에 널리 알려지게 됐죠.

오늘은 범죄 현장 정보 속에서 범인에 대한 증거를 찾아내는 범죄 프로파일링처럼, 빅데이터 속에서 더 나은 의사 결정을 위한 인사이트를 발굴하는 ‘데이터 프로파일링(data profiling)’에 대해 이야기하고자 합니다. 오늘날 기업은 바로 이 데이터 프로파일링을 통해 데이터를 모니터링하고 정리함으로써 크고 작은 데이터 문제들을 해결하고 있습니다.

범죄 현장 정보 속에서 범인에 대한 증거를 찾아내는 범죄 프로파일링처럼,
데이터 프로파일링은 빅데이터 속에서 더 나은 의사 결정을 위한 인사이트를 발굴합니다.

만물이 인터넷과 네트워크로 연결되고 있는 오늘날 하이퍼 커넥티드 시대에서 데이터의 소스와 양은 끊임없이 증가하고 있습니다. 동시에 데이터의 복잡성 또한 커지고 있는데요. 데이터 프로파일링은 이러한 데이터 더미 속에서 비즈니스 규칙 및 분석 알고리즘 툴을 사용해 데이터 비일관성을 발견하고 이해하며, 잠재적 위험을 식별하는 시각적 측정 방법입니다. 그 결과를 기반으로 개선된 기존의 데이터 세트와 시스템은 더 크고 새로운 데이터 세트의 상태를 모니터링하고 개선시킬 수 있는 중요한 요소가 됩니다.

오늘날 기업은 블로그와 소셜 미디어 그리고 하둡(Hadoop) 과 같은 새로운 빅데이터 기술에서 발생하는 더욱 더 다양하고 압도적으로 큰 규모의 데이터 세트와 상호 작용해야 합니다. 데이터 프로파일링의 필요성이 커질 수밖에 없는 상황이죠. 여러 산업에서 데이터를 생성하는 수많은 사물인터넷(IoT) 기기들이 만들어지고 있으며, 기업은 전자 의료 기록과 이메일 등을 통해 생체 정보와 사람으로부터 발생하는 여러 데이터에 접근하고 있습니다.

그러나 가장 중요한 건 데이터의 양이 아닙니다. 데이터 양은 방정식의 한 변일 뿐이죠. 형식이 올바르지 않거나, 표준화되지 않았거나, 나머지 데이터베이스(DB)와 올바르게 통합되지 않은 데이터는 새로운 기회를 놓치고, 고객 서비스 수준을 낮추고, 잘못된 의사 결정을 내리는 등의 문제를 야기할 수 있습니다. 기업은 데이터 프로파일링을 통해 보유한 데이터를 진단하고 검사함으로써 수많은 데이터 문제가 비즈니스에 영향을 미치기 전에 선제적으로 교정할 수 있습니다.

 

데이터 프로파일링이 필요한 이유

앞서 설명 드렸듯이 데이터 프로파일링은 기본적으로 데이터의 발견, 이해, 구성 작업을 도와주는데요. 데이터 프로파일링은 여러 측면에서 필수적인 데이터 처리 프로세스로 자리잡았습니다. 우선 데이터 프로파일링은 테이블(table)의 정보와 설명이 일치하는지 확인하면서 데이터의 기본을 익힐 수 있도록 도와줍니다. 그리고 서로 다른 데이터베이스, 소스, 애플리케이션, 테이블 사이의 관계를 밝혀냄으로써 데이터를 더 잘 이해할 수 있도록 합니다.

나아가 데이터 프로파일링은 단순히 데이터에 숨어있는 가치 있는 정보를 발견하는 것 외에도 데이터가 회사 고유의 비즈니스 규칙과 표준 통계 측정법에 부합할 수 있도록 보장합니다. 예를 들어, 한 컬럼에 지역명을 그대로 쓴 경우(California)와 지역명을 두 글자의 코드로 축약해 쓴 경우(CA)가 혼합되어 있을 때, 프로파일링을 통해 이를 걸러낼 수 있습니다. 동시에 철자 오류를 찾아내고, 모든 지역명을 두 글자의 코드로 통일시킬 수 있는 표준화 규칙까지 생성할 수 있죠.

데이터 프로파일링은 단순히 데이터에 숨어있는 가치 있는 정보를 발견하는 것 외에도
데이터가 회사 고유의 비즈니스 규칙과 표준 통계 측정법에 부합할 수 있도록 합니다.

데이터 프로파일링의 종류

오늘날 사용되는 많은 데이터 프로파일링 기술 또는 프로세스는 구조 발견(structure discovery), 콘텐트 발견(content discovery), 관계 발견(relationship discovery)의 3가지 주요 카테고리로 분류됩니다.

구조 발견은 구조 분석이라고도 하는데요. 보유한 데이터가 일관적인지 그리고 형식이 올바른지 확인합니다. 이때 패턴 매칭과 같은 몇 가지 프로세스를 사용할 수 있습니다. 예를 들어, 패턴 매칭을 사용해 전화번호 데이터 세트 내에서 유효한 세트 형식을 찾아내고, 필드의 형식 정보가 텍스트 기반 혹은 숫자 기반인지 여부를 확인 할 수 있습니다. 또 구조 발견은 데이터 내에서 간단한 기본 통계 값을 검사합니다. 최소값, 최대값, 평균값, 중앙값, 최빈값, 표준편차와 같은 통계를 사용해 데이터의 유효성에 대한 인사이트를 얻을 수 있습니다.

콘텐트 발견데이터베이스의 개별 요소를 보다 자세히 확인하는 프로세스입니다. 이를 통해 null 값 또는 부정확하거나 모호한 값이 포함된 영역을 찾을 수 있습니다. 데이터 관리 작업의 대부분은 데이터 세트 안의 일관성이 없고 모호한 모든 항목을 이해하는 것에서부터 시작됩니다. 콘텐트 발견의 표준화 프로세스는 이렇게 기본적인 문제를 해결할 때 중요합니다. 예를 들어, 주소 데이터 세트에서 개별 주소를 올바른 형식으로 맞추기 위해서는 데이터 비일관성을 찾고 수정하는 작업이 필수입니다. 만약 잘못된 형식의 주소가 포함된 데이터 세트를 사용한다면, 우편이 반송되는 등의 문제와 함께 추가 비용이 발생하겠죠. 이처럼 비표준 데이터에서 발생할 수 있는 잠재적 문제들은 데이터 관리 프로세스 초기에 해결할 수 있습니다.

마지막으로 관계 발견사용중인 데이터를 발견하고, 데이터 세트 간의 연결고리를 더 잘 이해할 수 있도록 합니다. 메타데이터 분석으로부터 시작되는 이 프로세스는 데이터 간 주요 관계를 결정하고, 특히 데이터가 중복되는 특정한 필드 사이의 연결 범위(connections)를 좁혀줍니다. 이 프로세스는 데이터 세트가 정렬되지 않아 발생할 수 있는 몇몇 문제를 예방합니다.

기업은 데이터 프로파일링을 통해 보유한 데이터를 진단하고 검사함으로써,
수많은 데이터 문제가 비즈니스에 영향을 미치기 전에 선제적으로 교정할 수 있습니다.

데이터 프로파일링 기술의 종류

데이터 프로파일링 툴의 일반적인 작업 방법에는 컬럼 프로파일링(column profiling), 크로스-컬럼 프로파일링(cross-column profiling), 크로스-테이블 프로파일링(cross-table profiling), 데이터 룰 검증(data rule validation) 4가지가 있습니다.

컬럼 프로파일링은 데이터를 읽고, 개별 열에서 각 값이 나타나는 회수를 계산합니다. 이 방법은 데이터 열 내의 도수 분포와 패턴을 찾을 때 유용합니다.

크로스-컬럼 프로파일링은 키 분석(key analysis)과 종속성 분석(dependency analysis)의 2가지 프로세스로 구성됩니다. 키 분석은 가능한 기본 키(primary key)를 찾기 위해 속성 값의 집합을 검사합니다. 종속성 분석은 데이터 세트 안의 각 컬럼 간의 관계 또는 구조가 존재하는지 여부를 판별하는 보다 복잡한 프로세스입니다. 두 기술 모두 동일한 테이블의 데이터 속성 사이 종속성을 분석할 때 유용합니다.

크로스-테이블 프로파일링은 테이블 간의 참조 관계를 식별하는 외부 키(foreign key)분석을 사용해 서로 다른 테이블안의 데이터 관계를 조사합니다. 이를 통해 중복 입력을 줄일 뿐만 아니라 함께 매핑할 수 있는 데이터 값 세트를 식별할 수 있습니다.

마지막으로, 데이터 룰 검증은 데이터 인스턴스와 데이터 세트가 사전에 정의된 규칙을 준수하는지 여부를 확인하기 위해 데이터 프로파일링을 실행합니다. 이 프로세스는 일괄 검증 처리나 지속적인 검증 서비스를 통해 실행될 수 있습니다.

데이터 프로파일링 사례

데이터 프로파일링을 통해 메타데이터를 우선 검사함으로써 가장 큰 데이터 세트 내의 골치 아픈 문제를 해결할 수 있습니다. 예를 들어, SAS의 메타데이터 및 프로파일링 도구와 하둡을 사용해 데이터 내의 문제를 해결하고, 새로운 비즈니스 아이디어를 창출할 수 있는 최적의 데이터 유형을 찾을 수 있습니다. 하둡용 SAS 데이터 로더(SAS Data Loader for Hadoop)의 비주얼 인터페이스 기능은 하둡 데이터 세트를 프로파일링하고, 결과를 보고서 형식으로 저장합니다. 이 솔루션은 데이터 품질 메트릭스, 기술적 척도, 메타데이터 측정, 기타 차트를 제공해 데이터를 더 잘 이해할 수 있도록 도와줍니다.

SAS의 메타데이터 및 프로파일링 도구와 하둡을 사용해 데이터 내의 문제를 해결하고,
새로운 비즈니스 아이디어를 창출할 수 있는 최적의 데이터 유형을 찾을 수 있습니다.

데이터 프로파일링은 현실 세계에 영향을 미치고 있습니다. 실제 텍사스 공원 및 야생 동물 보호국(TPWD: Texas Parks & Wildlife Department) 은 SAS 솔루션을 활용해 고객은 물론 내부 직원의 경험까지 크게 향상시켰습니다. TPWD는 100여개의 주립 공원과 사적지, 51종의 야생 동물, 8개의 어류 부화장, 수많은 현장 사무소를 갖추고 있으며, 수백만 에이커에 달하는 공원 토지와 수로의 활용을 관리하고 장려하는 일을 담당합니다.

TPWD에는 뛰어난 전문 지식을 갖춘 수천명의 직원과 수백명의 생물학자들이 근무하고 있는데요. 이들은 사회적, 문화적, 인구 통계학적 요소들이 끊임없이 변화하는 가운데, 결국 단순히 야생 동물만이 아닌 텍사스 주 사람들 자체를 완전하게 이해해야 함을 깨달았습니다. 예를 들어, 텍사스 하면 사슴과 영양이 뛰노는 이미지가 그려지지만, 실제 텍사스 주민의 85%는 9개의 거점 도시에 집중돼 있으며, 어른과 아이 모두 하루의 90%를 실내에서 보냅니다. 또 지난 50년 사이 인구가 2배로 증가했지만, 사냥과 낚시와 같은 아웃도어 활동은 같은 수준에 머무르고 있죠. 결국 보호 활동과 프로그램에 대한 관심과 수요를 높이기 위해서는 우선 텍사스 주민에 대한 더 깊이 있는 이해가 필요했습니다.

360도 분석 애플리케이션 LURES

TPWD는 SAS 솔루션을 도입하고, 비즈니스 분석과 최적화를 통해 텍사스 주민을 연구하기 시작했습니다. 그리고 공원, 사냥, 낚시, 보트 타기, 매거진 구독 등 고객에 대한 360도 이해를 제공하는 포괄적인 분석 애플리케이션인 LURES(License Utilization and Revenue Enhancement System)을 개발했습니다. TPWD의 존 테일러(John Taylor) LURES 프로젝트 리더는 “SAS의 고객 관계 관리 소프트웨어를 통해 처음으로 이웃 주민들의 다양한 특성을 정확하게 짚어내고, 개별 고객을 프로파일링해 고객의 레저, 공원 활용, 구매 패턴 등을 읽을 수 있게 됐다”라고 설명했습니다.

TPWD는 SAS 데이터 관리 솔루션의 데이터 프로파일링 기능을 사용해 고객 경험을 향상시켰습니다. 데이터 프로파일링 툴은 잘못된 철자를 식별하고, 데이터 세트 내의 주소와 지정학적 특성을 표준화함으로써 고객 데이터의 질을 향상시켰는데요. TPWD의 대표 프로그램인 ‘Neighborhood Fishing’은 전략적으로 12개의 호수를 선정하고, 정기적으로 메기와 무지개 송어를 풀어 낚시 활동을 장려합니다. 분석가들은 지리 정보 시스템(GIS)과 SAS 분석을 활용해 도시 인구, 그 중에서도 특히 대도시의 중산층 히스패닉 가정이 집중해 있는 휴스턴 호수에 해당 프로그램을 확대 실시해서 큰 성과를 거뒀습니다.

또 다른 인기 프로그램인 ‘빅 타임 텍사스 헌트(Big Time Texas Hunts)’는 큰뿔야생양과 흰꼬리사슴 등 특별한 동물을 사냥할 수 있는 입장권을 판매하는 TPWD의 주요 수익원인데요. TPWD는 LURES의 정교한 마케팅 세분화를 통해 잠재적 구매자와 이메일을 통해 비용효율적으로 접근할 수 있는 사람들을 구분함으로써, 우편 비용을 90% 절감해 수십만 달러를 절약하고, 투자 수익률은 240%까지 증가시켰습니다.

TPWD의 분석가들은 SAS 분석을 활용해 고객 데이터의 질을 향상시킴으로써,
고객 경험을 개선한 동시에 투자 수익률까지 증가시켰습니다.

예산 및 재무 보고 개선

TPWD의 기획 및 분석 재무 보고(Planning and Analysis financial reporting) 담당 팀 역시 SAS 소프트웨어를 통해 전략적 인사이트를 얻고, 내부 프로세스를 개선했습니다. LURES가 개발됐을 무렵 TPWD는 훨씬 더 많은 데이터를 생성하는 새로운 회계 방식과 금융 시스템을 도입하고 있었습니다. 이렇게 생성되는 데이터는 많은 가치를 담고 있으나, 그만큼 보고의 복잡성 또한 증가하는데요.

TPWD의 알레한드로 파리아스(Alejandro Farias) 기획 및 분석 담당자는 “새로운 오라클 회계 시스템의 표준 리포팅 툴은 보고서 작성에 시간이 더 걸렸다. 그래서 일부 예산 및 재무 보고 작업에 SAS 비즈니스 인텔리전스(SAS Business Intelligence) 툴을 도입했으며, 차이는 마치 낮과 밤처럼 달랐다. 훨씬 더 빠른 속도로 맞춤형 보고서를 작성할 수 있게 됐으며, 내부 회계 시스템과 텍사스 주 USAS 메인프레임 회계 시스템 간의 지출과 수입 조정을 자동화했다. 이전에는 사나흘이 소요되던 일도 이제는 약 한 시간이면 끝난다. LURES가 개발된 후 SAS 비즈니스 인텔리전스 툴과 SAS 보고서에 대한 수요가 크게 증가했지만, 이는 SAS가 우리에게 해줄 수 있는 일의 일부분에 불과할 것”이라고 말했습니다.

TPWD의 카터 스미스(Carter Smith) 수석 이사는 “SAS 솔루션을 통해 업무의 사회적, 인적 차원에서는 물론 운영 측면에서도 보다 스마트해졌다. TPWD는 곧 천연 자원에 대한 대중의 신뢰이자, 장기적인 관점의 깊이 있는 책임감이다. 대중을 최대한 이해하고, 효율적으로 봉사하는 것이 우리 미션의 핵심이며, SAS는 그 실현을 도와주는 획기적인 전환점”이라고 말했습니다.

데이터를 모니터링하고 정리할 수 있는 데이터 품질 규칙을 만드는 데이터 프로파일링은 데이터 전략을 구현하기 위한 핵심 요소입니다. 데이터 프로파일링은 신뢰할 수 있는 데이터로 더 나은 의사 결정을 내리는 기업 여정의 첫 번째이자 필수적인 단계라는 사실 잊지 마세요.

지난 10년간 많은 기업들은 ‘데이터 통합 툴’을 사용해 데이터를 프로파일링하고, 관리, 통제, 활용해왔습니다. 이제 ‘데이터 관리 플랫폼’을 활용해 빅데이터 도전 과제를 더욱 효율적으로 해결할 수 있습니다. SAS 백서를 통해 데이터 통합 툴의 진화와 포괄적인 데이터 관리 플랫폼을 통해 얻을 수 있는 혜택들에 대해 살펴보세요.

백서 다운로드


해당 기사는 John Bauman 기사를 일부 편집한 내용입니다.
Share

About Author

Jeanne (Hyunjin) Byun

Related Posts

Leave A Reply

Back to Top