증가하는 AI 시스템 구축
최근 AI 시스템 구축에 관한 기사들을 많이 볼 수 있습니다.
국민은행의 AI 보이스피싱 모니터링 시스템, 심평원의 인공지능(AI)을 이용한 과잉 진료 단속 시스템, 우리은행의 무역 기반 자금세탁방지(Anti-TBML) 시스템, 대우건설의 AI 기반 입찰 데이터 분석 시스템, 그리고 갤러리아 백화점의 AI 기반 백화점 맞춤서비스 등 매우 다양합니다. 이러한 AI 시스템들 중에는 자연어 처리(Natural Language Processing) 기반의 텍스트 분석 기술이 없다면 구축 불가능한 시스템이 있을 것입니다.
국내 텍스트 분석 기술은 약 10년 전부터 본격적으로 활용되기 시작했습니다. 당시 검증되지 않은 국내 텍스트 분석 기술 때문에 대부분의 기업에서는 POC(Prove of Concept)를 통해서 텍스트 분석 솔루션을 도입했습니다. 편의상 초기와 최근의 텍스트 분석 활용 유형을 나누어 설명 드리겠습니다.
초기 Text Analytics 활용 유형
초기 텍스트 분석의 활용 유형은 ①SMA/소셜미디어 분석, ②VOC/댓글, 상품/품질 분석, ③챗봇/스마트 검색으로 구분할 수 있습니다.
초기에는 많은 기업들이 유행처럼 자사 및 경쟁사의 외부 평판 분석에 SMA 소셜미디어 분석을 유행처럼 구축하거나 서비스를 받는 형태로 진행했습니다. 그 이후 고객의 의견과 피드백을 더 효과적으로 전달해 주는 VOC/댓글, 상품/품질 분석 시스템을 통해 신상품 개발이나 클레임 비용을 절감하는 데에 도움을 받을 수 있게 되었습니다.
그 다음엔 텍스트 분석 기술이 점차 고도화되어 많은 기업 및 공공 기관에서 유행처럼 챗봇 시스템을 구축하였고, 일부 기업에서는 사내 검색 시스템에 텍스트 분석 기술을 접목하여 보다 편리하고 유용한 맞춤형 검색 시스템을 구축했습니다.
최근 Text Analytics 활용 사례
최근 텍스트 분석의 활용 유형을 ①TBML/Fraud 방지 시스템, ②실시간 불완전판매 모니터링 시스템, ③ITB 분석 시스템으로 구분하여 좀 더 자세히 설명 드리고자 합니다.
# TBML/Fraud 방지(무역기반 자금세탁 방지)
최근 금융권에서 자금세탁방지법에 따라 많이 구축하고 있는 TBML(Trade Based Money Laundering, 무역 기반 자금세탁방지) 및 보험 사기 방지 Fraud 시스템입니다. 무역거래에 있어서 제재 위험(Sanction Risk) 거래, 무역거래를 가장한 사기거래 등 무역 이상 거래 또는 의심 거래를 적발해 내는 시스템으로, 금융권에서는 이러한 이상 거래를 사전에 방지하여 금융당국으로부터 불이익을 줄일 수 있습니다. 이러한 시스템이 과거에 없었던 것은 아니지만 몇 년 사이 여러 금융기관에서 활발하게 구축되는 이유는 최근 텍스트 분석 및 이미지 인식 기술이 고도화되었기 때문입니다.
무역거래 트랜잭션에서 지금까지 사람의 눈으로만 확인할 수 있었던 문서의 이미지화 된 정보로부터 거래의 중요한 Entity 정보(인명, 장소, 회사명 등…)들을 자동으로 추출하고, 해당 정보 간의 네트워크 정보를 만들어 의심거래자 및 의심거래 위험 스코어를 산정하여 모니터링하고 사전에 알려주는(Alert) 시스템입니다.
거래의 위험 Score를 바탕으로 의심거래에 대한 의심거래자 주소/위치 및 무역거래의 회사나 선주, 화물주 및 경유지 등을 바탕으로 네트워크 정보를 만들어 손쉽게 의심 거래를 모니터링 할 수 있게 해 줍니다.
# 실시간 불완전 판매 모니터링
금융회사는 금융소비자가 금융거래 체결여부에 합리적인 결정을 할 수 있도록 판단에 도움이 되는 정보나 근거를 제시해야 합니다. 금융상품의 특성이나 정보를 충분히 설명하지 않거나 왜곡, 과장 판매할 경우 불완전 판매로 금융당국의 제제를 받게됩니다. 불완전 판매는 보험 상품/ 펀드 등 간접투자 상품거래에서 많이 나타납니다. 그래서 금융회사에서는 상품 판매 중에 영업점 창구나 콜센터 상담사의 의도성 없는 불완전 판매를 방지할 수 있는 시스템을 구축하고 있습니다.
영업점 상담창구에서 상담사와 고객간의 대화를 실시간으로 녹취하여 STT(Speech to Text) 솔루션을 통해 텍스트로 변환하고, AI 기반 텍스트 분석 모형을 바탕으로 불완전 판매인지 여부를 판단할 수 있습니다. 정해진 상담 구간별로 모니터링하여 상담 중에 상담사에게 팝업 알림을 통해서 불완전 판매를 방지할 수 있게 해 줍니다. 이런 시스템은 실시간 스트리밍 STT 기술과 실시간 불완전 판매 여부를 판단할 수 있는 텍스트 분석 기술이 있기 때문에 구축이 가능합니다.
# ITB/ITT 분석 시스템
전통적으로 해외 플랜트 및 조선 사업에서 흔히 듣는 용어로 ITB(Invitation to Bid) , ITT (Invitation to tender)라는 용어가 있습니다. 한마디로 발주처로부터 받은 입찰 요청서로서, 시공사에게 프로젝트에 대한 설명 및 요구사항을 포함하여 입찰을 의뢰하는 서류를 일컫는 말입니다. IT 업계의 RFP(Request for Proposal) 제안 요청서와 유사합니다. RFP 문서는 분량이 100페이지 이내가 대부분입니다. 그러나 해외 플랜트나 조선 사업에서 ITB, ITT 문서는 수백, 수천 페이지에서 많게는 수만 페이지의 분량입니다.
발주처에서 ITB/ITT 문서를 제공한 뒤, 짦게는 수 주일에서 많게는 수 개월의 시간을 주고 입찰 경쟁사로부터 입찰서를 받게됩니다. 경쟁사들을 서로 한정된 시간내에서 ITB/ITT 문서를 분석하여 경쟁력 있는 입찰서를 만들고자 합니다. 수 천억에서 수 조원의 입찰가에 이르는 중요한 입찰에서 독소조항 및 리스크 요인을 잘 분석하여 적정한 입찰서를 만들기 위해서는 주어진 시간을 잘 활용하는 것이 매우 중요합니다. ITB/ITT 분석 시스템은 발주처의 입찰요청서를 해당 시스템에 문서 통째로 등록하여 분석하는 시스템으로, 해당 플랜트나 조선 발주처의 요구사항 스펙에 맞게 관련 문서의 문단 섹션 단위까지 자동 매칭 모형을 통해 빠르게 찾아 줍니다. 그렇게 함으로써 경쟁력 있는 입찰서를 만들어 수주 성공율을 높일 수 있을 뿐만 아니라, 독소조항에 대하여 사람의 실수나 오류를 방지하여 수 십, 수 백억원의 손해를 막을 수 있는 시스템입니다.
SAS 텍스트 분석의 특징
SAS Visual Text Analytics 솔루션에는 많은 기능들이 있습니다. 그 중에서 최근 시장에서 각광 받는 기술을 요약하면 위 그림과 같이 몇 가지로 구분 할 수 있습니다.
첫째, 기업에서 가장 많이 활용하는 Categorization은 필수적으로 어느 고객이든 모두 활용하는 기능으로서, 특히 문맥/의미 기반으로 분류 모형을 만들 수 있습니다. 또한, 머신 러닝 기반으로 분류에 대한 정답이 있는 학습 데이터를 바탕으로 Auto Rule Generation 기능을 통해 자동으로 주요 키워드들을 추출하여 분류 모형을 만들 수 있으며, 3 레벨 이상의 계층 분류 모형을 하이브리드 기반으로 생성할 수 있는 특징이 있습니다.
둘째, 인명, 회사명, 장소, 이메일 등 Pre Built-in Entity 추출 모형을 제공하고, 사용자 정의 Entity를 통해 다양한 자연어 처리 함수 및 논리연산자를 활용하여 업무 목적에 맞게 Entity 모형을 만들 수 있습니다.
셋째, Text 분석 프로젝트를 진행할 경우 현업 사용자에게 도메인의 대표 키워드들을 제공받는 경우가 있는데, SAS의 Feature Phrase Extraction 기능을 활용하면 고객의 Sample 데이터로부터 관련 주요 구문 및 키워드들을 손쉽게 자동으로 추출할 수 있습니다.
넷째, PDF 등 문서에서 PDF 문서의 Header 및 Footer를 제거하고 본문의 상위목차, 목차, 문단 및 섹션을 분리하여 DB화 할 수 있습니다. 이 부분의 기술은 SAS 파트너사와 함께 개발하여 제공되고 있습니다.
지금까지 최근 텍스트 분석의 활용 유형 및 SAS 텍스트 분석 기술의 특징에 대하여 살펴보았습니다. 텍스트 분석 시스템 구축 형태를 보면 불가능할 것 같은 전통적인 수작업 업무 영역에까지도 응용이 가능함을 알 수 있습니다. 이것은 최근 텍스트 분석 기술이 고도화 되었기 때문에 가능해진 것입니다. 어떤 업무이든 사용할 수 있는 텍스트 데이터와 응용할 수 있는 아이디어만 있으면 텍스트 분석 기술을 활용한 AI 시스템을 구축할 수 있습니다. 다음 활용 사례의 주인공은 당신이 되어 보십시오.