Payment Fraud는 금융기관의 지속적인 도전 과제입니다. 디지털 결제방식이 다양화되고 실시간 결제 금액이 증가함에 따라 실시간 사기 탐지 및 예방이 필수적인 시대가 되었습니다. 동시에 고객은 마찰 없는 고객 경험을 요구하기 때문에 사기 탐지 시스템은 사기 탐지 성능과 고객 불편 간의 균형이 잘 유지되도록 충분히 정교하게 운영되어야 합니다.
규칙기반(Rule Base) 탐지가 좋은 출발점이 될 수 있지만, 사기변화에 유연하게 대응하면서 탐지 효율성을 유지하기에는 어려울 수 있습니다. 규칙(Rule)은 전반적인 개인 고객 데이터와 행동특성을 고려하기보다는 개별 사기 사례를 기반으로 하며, 사기 발생 이후 구축되는 사후 조치의 성격이 더 강합니다.
보다 효율적인 사기 탐지를 위해서는 규칙과 함께 행동 프로파일링이 포함된 머신러닝 모델을 결합하여 계층화된 사기 탐지 접근 방식을 적용하는 것이 좋습니다. 머신러닝 모델은 고급 방법론과 통계기법을 활용하여 고위험 거래와 고객을 식별합니다. 또한 변화하는 사기패턴, 정부 방침 및 내부 정책 등으로 급격히 늘어나는 조사 탐지 대상건의 오탐지율(False Positive)을 효율적으로 관리하는 데에도 높은 예측력을 제공합니다.
[사기 탐지의 계층화된 하이브리드 Approach 예]
[Rule과 AI 모델의 결합]
Supervised vs Unsupervised learning
지도 학습은 레이블이 지정된 데이터에 대해 모델을 학습하는 경우입니다. 사기 모델의 경우 이는 훈련 데이터 세트 내에서 사기 거래에 정확하게 태그를 지정하는 것을 의미합니다. 모델은 이 데이터에서 학습하여 미래의 결과를 예측하는 데 도움을 줍니다. 지도 방법에는 선형 회귀, 로지스틱 회귀, 의사 결정 트리 및 랜덤 포레스트와 같은 방법론이 포함됩니다.
비지도 학습에서 모델은 레이블이 지정된 데이터에 대해 학습하지 않고 대신 데이터에서 자체 인사이트를 얻기 위해 작동합니다. 비지도 학습은 클러스터링 및 연관 기술을 사용합니다.
지도 학습모델은 일반적으로 비지도 학습모델보다 성능이 더 우수하고 예측 가능합니다. 그러나 지도 머신 러닝 기술로 최상의 결과를 얻으려면 데이터에 올바르게 태그가 지정되도록 하기 위한 선행 투자가 필요합니다. 이는 사기 데이터가 잘 등록되지 않거나 과거 사기 케이스가 거의 없는 조직에서는 불가능할 수 있습니다. 이러한 경우, 먼저 지도 학습 방법으로 기능 또는 모델의 예비 세트를 도출한 후, 비지도 방법을 적용하여 결과를 개선시키는 것이 더 이상적일 수 있습니다.
[하이브리드 접근방식 – 지도학습과 비지도학습, 그리고 규칙]
SAS models
SAS는 다양한 머신 러닝을 사용하여 업계 최고의 예측 모델을 제공합니다. SAS 모델은 일반적으로 금융기관의 자체 데이터로 구축되어 고객에게 맞춤화되며, 그들의 고유한 사기 패턴에 최적의 사기 탐지를 제공합니다.
행동 프로파일링을 지원하기 위해, 각 SAS 모델은 SAS의 특허 받은 ‘Signature’ 기술을 적용합니다. ‘Signature’는 복잡한 고객의 행동패턴을 캡처하고 요약하여 이상패턴을 빠르게 탐지하기 위한 SAS의 고유 기술로서, 기업의 과거 거래 정보를 저장하여 고객의 일반적인 행태 패턴을 예측할 수 있도록 해 줍니다. SAS 모델은 다중 엔티티 Signature를 지원할 수 있습니다. 여기에는 예를 들어 고객, 계정, 수혜자 또는 디바이스가 포함될 수 있습니다. 트랜잭션을 스코어링 할 때 모델은 현재의 트랜잭션 뿐만 아니라 ‘Signature’에 의해 캡처된 모든 관련 엔티티의 과거 행동 활동을 설명합니다. 행동 히스토리가 사기를 예측한다는 것은 널리 알려져 있습니다. 일반적으로 사용 또는 지출에는 규칙적인 패턴이 있습니다. 따라서 이러한 확립된 패턴과의 편차는 의심스러운 활동 및 사기를 나타낼 수 있습니다.
[다중 엔티티 레벨 기반의 통합관점 뷰]
SAS는 이러한 ‘Signature’의 정보를 사용하여 비정상적인 활동을 감지하기 위해 전체적으로 사기 탐지 모델에 대한 입력 역할을 하는 수백 가지 통계 변수를 도출합니다.
‘Signature’에서 파생될 수 있는 행동 변수의 예에는 주어진 기간의 평균 거래 수, 평균 거래 금액, 일반적인 결제 금액, 지리적 편차 및 결제 속도 등이 포함되지만 이에 국한되지는 않습니다.
행동 변수 외에도 사기탐지 모델은 과거 데이터를 기반으로 거래의 다양한 측면에 대한 상대적 사기 위험을 포착하는 위험 변수도 활용합니다. 이러한 위험 변수는 위에서 설명한 행동 특성을 보완하며 일정한 거래패턴을 보이지 않는 고객과 사용자를 평가하는 데에 특히 중요한 역할을 합니다.
‘Signature’는 우선 다양한 입력 정보에서 파생된 수천 개의 활용 가능한 모델 피처를 생성합니다. 그리고 모델링 과정에서 변환 적용, Kolmogorov–Smirnov 테스트, 대상과의 상관관계, 선형/로지스틱 회귀, 선형 상호의존성 및 결측값 대치 등의 기술 조합을 통해 변수의 수를 줄입니다.
[SAS Signature – Dynamic Context]
위의 각 단계에서 SAS는 임계값 기반 접근 방식을 따릅니다. 예를 들어, SAS는 타겟과 변수 간의 상관 관계에 대한 임계값을 선택합니다. 이 임계값 아래에 있는 모든 변수는 모델링에서 제거됩니다. 임계값의 정확한 값은 SAS 모델링 팀의 이전 경험을 기반으로 하므로 필터링 후 후보 변수의 수는 후속 단계를 진행하기에 충분합니다.
마지막으로 SAS는 불안정한 변수를 필터링하기 위해 몇 가지 검사도 수행합니다. 이런 변수 정제 활동은 결과적으로 모델 성능과 밀접한 관련이 있는 중요 변수만 선택하게 만듭니다. 하지만 다양한 사기발생 시나리오를 고려하면 최종 변수 집합 안에는 다양한 변수가 존재하는 것이 중요합니다.
SAS 모델은 행동 세분화의 이점도 누릴 수 있습니다. 행동 세분화의 예는 모델링 프로세스 초기에 비즈니스 고객과 소비자 고객을 분리하고 기본적으로 각 세그먼트와 가장 관련성이 높은 변수를 사용하여 별도의 모델을 구축하는 것입니다.
최적의 기술을 결정하기 위해 그라디언트 부스팅 및 신경망과 같은 다양한 모델링 기술이 고려됩니다. 실제로 앙상블 모델을 통해 여러 기술을 조합하여 사용함으로써 최상의 성능을 달성할 수 있습니다.
- SAS의 Fraud Model은 단일 모델이 아닙니다 – Ensemble of Models
- 서로 다른/동일한 ML알고리즘을 기반으로 하는 여러 모델이 함께 작동하여 최종 스코어를 생성합니다.
- 사기율이 낮은 애플리케이션에 특히 적합한 접근 방식입니다.
SAS 모델은 거래가 사기일 가능성을 나타내기 위해 0에서 999 사이의 점수를 출력합니다. SAS는 모델 출력에 위험 원인 코드 목록도 포함할 수 있는 독점 사유 코드 생성 기술을 개발했습니다. 이러한 사유 코드는 최종 사용자에게 모델 출력 스코어와 관련된 위험에 대해 통찰력을 제공하도록 설계되었습니다. 개별 변수를 원인으로 사용하는 기존 기술과 달리 SAS 방법론은 먼저 상관 관계가 있고 유사한 개념을 가진 변수를 다른 위험 요소로 그룹화합니다. 이러한 각 위험 요소는 사유 코드로 표시됩니다. 이 모델은 거래가 사기성 상태(거래 당시에 실제로 위험에 처한 경우)일 가능성이 높은 세 가지 가장 높은 우선 순위 사유를 나타내기 위해 3가지 위험 사유 코드를 생성합니다.
아래에 실제 적용 사례 몇 가지를 소개합니다.
Case Study 1:
클라이언트 A는 실시간 거래의 점수를 산출하기 위한 모델이 필요했습니다. 모델링 기간은 로그인 및 세부 정보 변경, 지불 및 예금 거래, 사기 데이터와 같은 비금전적 거래를 포함하는 18개월의 과거 데이터를 기반으로 했습니다. 이 날짜 범위는 계절별 영향도와 세금 납부와 같은 주요 사회경제적 이벤트가 포함되었습니다. 일반적으로 사기 보고가 지연되기 때문에 18개월 기간 동안 발생한 모든 사기를 포함하기 위해 추가 개월 수의 사기 데이터도 포함했습니다.
SAS프로젝트 팀은 다양한 데이터 문제를 식별하고, 모델링 영향을 결정하고, 가능한 경우 소스의 데이터에서 문제를 수정하거나 모델링 시 고려할 수 있도록 문서화 작업을 진행했습니다.
데이터에서 볼 수 있는 사기의 주요 범주는 고객의 자격 증명이 도용된 계정 탈취 사례, 고객이 연루된 사례, 고객 투자 사기, 로맨스 사기와 같이 사기꾼에게 돈이나 자격 증명을 암시적으로 제공하는 전화 피싱, 원격 액세스 사기 또는 이메일 해킹과 같은 사례였습니다.
온라인 사용자 ID 및 고객 레벨의 ‘Signature’ 엔티티는 비정상적인 행동을 식별하기 위해 다양한 채널 및 거래 유형에 걸쳐 행동 기록을 구축하는 데 사용되었습니다. 이와 함께, 로그인 이벤트와 금융 거래 패턴을 살펴보는 변수가 개발되었습니다. 또한 SAS의 독자적인 동적 활동지역 추론방식으로 고객의 일반적인 활동지역을 추론하여 자택/직장 지역으로부터 더 정확한 거리를 계산했습니다.
SAS는 다양한 모델링 방법을 시도했고 이번 사례의 경우, 매우 복잡하고 비선형적인 사기 패턴을 탐지하는 데에 그라디언트 부스팅 방법이 가장 효과적인 것으로 판명되었습니다. 모델 평가에서는 기존 결제 모델에 비해 거래 적발률이 약 17%, 금액 적발률이 11% 증가하는 효과를 나타냈습니다.
Case Study 2:
클라이언트 B는 모바일, 개인 및 비즈니스 인터넷 뱅킹 채널에서 이루어진 지불 거래의 스코어를 도출하기 위한 모델이 필요했습니다. 모델링 기간은 지불 및 사기 데이터를 포함하는 17개월의 과거 데이터를 기반으로 했습니다. 클라이언트 A와 마찬가지로 데이터 범위는 계절성을 고려하여 해당 기간 동안의 사기가 포착되었음을 확인했습니다.
이 경우 고객 계정 ‘Signature’와 별도의 수취인 계정 ‘Signature’가 개발되어 모델이 발신자 계정과 수신 계정의 전체적인 그림을 독립적으로 고려할 수 있습니다. 그런 다음 트랜잭션 금액, 발생 시간, 발신자와 수신자 관계, 성숙도 등을 고려하여 이러한 개체의 패턴을 기반으로 변수를 개발할 수 있었습니다. 또한 위치 정보 활용 시 개인정보보호를 위해 데이터에는 IP 주소가 일부만 입력되었지만, SAS는 이 일부 입력정보로 지리적 위치를 추론하는 SAS의 독점적인 동적 활동지역 추론 방식을 통해 모델에도 위치정보를 적용할 수 있었습니다.
오랜 기간 입금만 받던 계좌가 갑자기 송금을 결정한 ‘Signature’ 정보만으로는 확인할 수 없는 강력한 사기 패턴이 감지됐습니다. 모델로 이러한 패턴을 실시간으로 포착하기 위해 SAS는 신규 패턴을 모델에 학습시키기 위한 새로운 배치 작업 기능을 설계했습니다.
거래 유형에 따라 거래를 두 개의 세그먼트로 분할하는 행동 세분화가 구현되었습니다. 한 세그먼트에는 그라디언트 부스팅 트리 모델을 사용하고 다른 세그먼트에는 신경망 모델을 사용하여 최상의 모델 성능을 달성했습니다.
평가 기간 동안 79.1%의 트랜잭션 탐지율과 75%의 금액 탐지율, 11.4:1의 오탐율로 훌륭한 모델수행 결과를 이루어 냈습니다.
이상으로 사기에 대응하는 SAS의 분석 접근 방법과 그 도입 사례를 소개했습니다. 역동적인 지불 환경과 기술 및 고객을 악용하기 위해 새로운 방법을 계속해서 찾아 끊임없이 진화하는 사기꾼 사이에서 사기를 식별하는 것은 점점 더 복잡해지고 있습니다. 표준 사기 방지 접근 방식은 더 이상 예전만큼 효과적이지 않습니다. 실시간으로 행동을 분석하고 의심스러운 패턴을 감지할 수 있는 SAS의 고급 기계 학습 모델은 조직이 사기를 더 효율적으로 방지하고 고객을 보호하는 데에 큰 도움이 될 것입니다.
[참고자료]
- Machine learning models for payment fraud – SAS Blog
- https://www.sas.com/en_us/software/fraud-management.html
- Manage payment fraud risk while enhancing the customer experience – SAS White paper