현대 기업에게 금융 사기, 이상 거래 탐지는 분명 어려운 도전과제입니다. 실제 사기 거래 발생률은 낮고 기업 활동의 극히 일부분에 해당되지만, 문제는 적절한 툴과 시스템을 갖추지 않는다면 엄청난 금전적 손실을 야기하는 범죄로 빠르게 이어질 수 있다는 것입니다. 더군다나 금융 사기 범죄자들은 계속해서 새로운 사기 수법을 고안해내고 점차 정교해지고 있는데요. 한가지 좋은 소식은 바로 사기 탐지 분야의 머신러닝 기술이 빠르게 발전하고 있다는 것입니다! 최신 사기 방지 시스템(FDS; Fraud Detection System)은 스스로 금융 사기의 새로운 패턴을 학습하고 적응해 이상 거래를 조기에 탐지합니다.
그렇지만 대다수 기업은 여전히 주요 사기 탐지 수단으로 비즈니스 룰(규칙) 기반의 시스템을 사용합니다. 규칙은 알려진 패턴을 발견하는 데에는 탁월할 수 있지만, 규칙 자체만으로 알려지지 않은 계획을 발견하고 새로운 사기 패턴에 적응하거나 점차 정교해지는 사기 수법을 처리하는 데에는 큰 효과를 기대할 수 없는데요. 사기 탐지를 위해 머신러닝을 꼭 도입해야 하는 이유입니다!
오늘날 머신러닝은 전체 산업에서 응용되고 있고, 대다수 공급 업체들은 사기 탐지를 위한 머신러닝 기술을 갖추고 있다고 말하는데요. SAS는 1980년대 신용카드 사기에 대응하기 위해 신경망을 처음 활용하면서 머신러닝 분야를 개척했습니다. 이후 오랫동안 머신러닝 연구에 대한 투자를 아끼지 않아왔는데요. 오늘은 사기 탐지 도구에 있어 머신러닝의 중요성과 실제 활용 방법을 살펴보고자 합니다. 우선 머신러닝 기술 구현에 필요한 요소들을 하나씩 살펴보겠습니다.
(1) 데이터
머신러닝 시스템 구축 시 핵심은 바로 데이터입니다. 데이터 세트의 크기가 점점 더 커지면서 사기 탐지 문제의 복잡성 또한 증가하고 있는데요. 따라서 실무자에게 데이터와 복잡성 증가에 따라 확장할 수 있는 머신러닝 플랫폼은 필수 요소입니다. 일반적으로 학술적인 툴은 수천 개의 레코드와 몇 메가바이트(MB)의 데이터를 다루지만, 현실에서 실질적인 문제를 해결하기 위해서는 기가바이트(GB), 더 나아가 테라바이트(TB), 페타바이트(PB) 규모의 데이터를 처리해야 하기 때문입니다.
(2) 다양성의 이점
단 하나로 해결할 수 있는 만능 머신러닝 알고리즘이나 방법은 없습니다. 성공적인 알고리즘을 적용하기 위해서는 수많은 머신러닝 기반의 알고리즘을 사용하고, 그 안에서 새로운 변화를 시도하고, 다양한 데이터 세트로 테스트해보아야 하는데요. 실제 데이터 과학자는 여러 딥러닝을 위시한 다양한 지도(supervised) 학습 및 비지도(unsupervised) 학습 방법과 다양한 피쳐(Feature) 엔지니어링 기법, 툴킷을 활용합니다. 무엇보다 사기 탐지를 위한 머신러닝은 창의적이고 예술적인 측면을 지닙니다. 바로 머신러닝을 새롭고 기발한 방식으로 응용하는 것인데요. 예를 들어, 한 시스템 상에서 다양한 지도, 비지도 방법을 조합함으로써 각 방법을 개별적으로 사용할 때보다 더 큰 효과를 얻을 수 있습니다.
(3) 운영 내 통합
머신러닝 모델을 개발한 후에는 이를 운영과 통합해야 합니다. 데이터가 하둡(Hadoop)에 있다면 머신러닝 모델 또한 당연히 하둡에서 실행될 수 있어야 합니다. 마찬가지로 데이터가 실시간 시스템 상에서 스트리밍 되고 있다면 실시간 또는 스트림 데이터에 적용할 수 있는 머신러닝 엔진이 필요하죠. 머신러닝 모델의 이식성(Portability)과 운영 시스템 내 의사 결정 로직과의 통합은 다양한 규모, 특히 대규모의 사기를 차단하는데 매우 중요합니다.
(4) 화이트 박싱(White Boxing)
머신러닝 시스템의 역할을 설명하는 것도 중요합니다. 이를 종종 ‘화이트 박싱(white boxing)’이라고 부르는데요. 일반적으로 머신러닝 방법과 모델은 내부를 투명하게 들여다보기 힘든 블랙박스와 같습니다. 왜 그런 점수를 매겼고, 특정 의사결정을 내렸는지 분석가들에게 설명하는 것은 매우 어려운 작업인데요. 국소 선형 근사(Local Linear Approximation), 텍스트 내러티브(textual narrative) 생성, 그래픽 시각화 생성을 기반으로 스코어카드(scorecards)를 포함시키는 등 그 방법은 다양합니다. 물론 이는 근사치이지만 사용자에게 머신러닝 모델에 대한 인사이트를 제공하고 사기 조사 프로세스에 대해 조언할 수 있죠.
(5) 지속적인 모니터링
모든 것은 변화하고, 시간이 지남에 따라 적응해야 합니다. 따라서 머신러닝 기반 사기 탐지 시스템을 지속적으로 모니터링하는 것이 필수적입니다. 모집단(populations)과 기저 데이터(underlying data)가 바뀌면, 예상되는 시스템 입력의 가치가 떨어지면서 전체 성능에 영향을 미치게 됩니다. 이는 머신러닝 시스템뿐만 아니라 규칙 기반의 시스템에도 적용되는 문제인데요. 새로운 머신러닝 방법은 근본적인 변화가 발생할 때 새로운 미확인 패턴에도 적응함으로써 이 문제에 대응해야 합니다. 따라서 전부는 아니지만 일부 머신러닝에 위한 재학습 및 평가 단계를 제거할 수 있게 되죠!
좋은 모니터링 프로그램은 시스템에 입력되는 데이터를 적극 검토하고, 머신러닝 모델의 예측과 설명을 평가하며, 급격한 변화가 운영 및 최종 결과에 영향을 미치기 전에 관리자에게 데이터 트렌드와 통계 변화를 알려줍니다.
고객에 미치는 영향
실제 한 금융 기관의 사례를 살펴볼까요? 이 금융 기관은 부정 거래를 확인하는 동시에 양질의 고객 서비스를 유지해야 했습니다. 아무리 사기를 탐지하는 것이 중요하다고 해도 적법한 거래를 오탐함으로써 고객 경험을 저해할 수는 없었는데요.
이 금융 기관은 규칙 기반의 사기 탐지 시스템을 현대화하고, 감시와 고객 서비스 간 균형을 유지하고자 했습니다. 이를 위해 SAS와 협력, 일련의 신경망을 이용해 두 종류의 사기 점수를 생성하는 머신러닝 기반의 사기 탐지 솔루션을 구축했습니다.
- 계정이 이상 거래에 이용되고 있을 가능성을 평가하는 일차 사기 점수
- 개별 거래가 사기일 가능성을 평가하는 거래 점수
금융 기관은 이 솔루션으로 거래 승인 과정을 개선하고, 사기 탐지의 효과를 높였습니다. 실제 사기로 잘못 구분된 월 약 100만 달러의 거래를 정확히 식별하고, 반대로 탐지하지 못한 월 150만 달러의 이상 거래를 추가로 식별하게 됐는데요. 결과적으로 사기 탐지 능력을 크게 개선했을 뿐만 아니라 고객과의 마찰을 줄이고 고객 만족을 크게 향상시켰습니다.
(6) 고정관념에서 벗어나기
마지막으로 성공적인 머신러닝 프로그램은 지속적인 실험 요소를 포함합니다. 실제 금융 사기 수법과 기술은 점점 더 정교해지고 빠르게 변화하고 있습니다. 그렇기 때문에 머신러닝 모델을 구축만하고 내버려두는 것만으로는 충분하지 않은데요. 이에 따라 데이터 과학자들이 사기를 차단하기 위해 다양한 방법, 데이터, 기법을 지속적으로 자유롭게 실험할 수 있는 샌드박스(Sandbox)가 핵심 요소로 떠오르고 있습니다. 이처럼 데이터 과학자의 역량을 높일 수 있는 투자는 즉각적인 효과를 가져옵니다.
그렇다면 머신러닝은 정확히 무엇일까요?
간단히 말해 머신러닝은 데이터로부터 알려진 패턴과 알려지지 않은 패턴을 추출하는 작업을 자동화합니다. 이러한 패턴을 학습되지 않은 새로운 데이터에 적용할 수 있는 공식이나 명령어 집합으로 표현하는데요. 머신은 결과와 새로운 패턴이 제시될 때 학습하고 적응하며, 지도를 받거나 지도를 받지 않을 수도 있습니다.
지도 머신러닝은 데이터 안에서 확인된 레코드를 통해 학습하는 분석 방법의 일종인데요. 이러한 학습 데이터를 분류(labeled) 데이터라고 부릅니다. 지도 모델을 훈련시키기 위해 사기 레코드와 비사기 레코드를 제시하면, 모델은 이 레코드를 새로운 예제에 적용하고 사기 여부를 예측할 수 있는 함수나 명령어 집합을 추론하게 됩니다. 일반적인 지도 머신러닝 방법에는 로지스틱 회귀, 딥러닝을 포함한 신경망, 의사결정 트리, 그래디언트 부스팅 머신, 랜덤 포레스트 트리, 서포트 벡터 머신 등 다수가 있습니다.
반면 비지도 머신러닝은 어떤 데이터가 사기인지 모르기 때문에 데이터의 구조를 설명해주는 함수를 생성하는 모델을 활용합니다. 그리고 모델에 적합하지 않은 모든 것을 비정상(anomaly)으로 표시하는데요. 즉 비지도 모델을 학습시키기 위해 단순히 데이터를 제시하면 모델은 데이터의 근원적인 구조와 차원을 설명하는 함수나 명령어 집합을 추론합니다. 이를 통해 함수나 명령어 집합을 학습하지 않은 새로운 데이터에 적용시킬 수 있습니다.
그렇지만 비지도 머신러닝 방식은 사람이 직접 데이터를 작업하고 확인할 때까지 탐지 기법의 정확성을 평가하기 힘들다는 단점이 있습니다. 일반적인 비지도 머신러닝 방법에는 자기 조직화 지도(self-organizing maps), k-평균, DBSCAN, 커널 밀도 추정(kernel density estimates), 원 클래스 서포트 벡터 머신(one-class support vector machines), 주성분 분석(principal component analysis) 등이 있습니다.
인공지능(AI)의 무한한 잠재성
통계 분석과 머신러닝은 많은 발전을 이루었지만 머신러닝과 인공지능의 발전은 점점 더 가속화되고 있습니다. 실제 최근 SAS가 은행, 보험, 제조, 소매, 정부 등 다양한 산업에 종사하는 100개 유럽 기업의 임원을 대상으로 전화 조사를 실시한 결과, 많은 비즈니스 리더들이 인공지능의 잠재력을 높게 평가했는데요. 조사 결과를 담은 ‘기업의 AI 약속(The Enterprise AI Promise)’ 보고서를 통해 인공지능 활용 현황, 미래 활용 계획, 당면 도전과제 등에 대한 인사이트를 확인해보세요.