기업이 데이터 기반의 의사결정을 하기 위해서는 AI를 특정 영역이 아닌 분석 라이프사이클 전반으로 확대하고, 이 라이프 사이클은 의사결정 프로세스와 연결돼야 합니다. 개방된 플랫폼에서 분석 시간을 줄이고, 그 결과를 운영시스템에 빠르게 적용해 더 큰 비즈니스 가치를 실현할 수 있어야 합니다.
지난 시리즈에서는 모델링 작업을 위한 피처 자동 생산과 자동 튜닝 정도로 한정하는 일반적인 AutoML과 달리, 데이터(Data)-분석(Discovery)-적용(Deployment)으로 이어지는 분석 라이프사이클 전반을 지원하는 SAS AutoML을 소개해 드렸습니다. SAS AutoML 서비스인 SAS AI-Enhanced Analytics는 더 빠르게 분석을 수행하고 더 빠르게 배포하여 가치가 실현되는 시기를 앞당깁니다. 이후에도 모델을 지속적으로 모니터링하여 성능이 떨어지면 자동 셀프러닝을 통해 성능을 유지합니다.
지난 AutoML 시리즈는 여기서 확인하실 수 있습니다.
SAS AutoML 주요 기능 AtoZ
이번 시리즈에서는 분석 라이프사이클 전반을 지원하는 SAS AutoML의 주요 기능 (오토 프로파일링(Auto Profiling), 자동 비주얼 인사이트(Automated Explanation), 오토 피처 엔지니어링(Auto Feature Engineering), 오토 튜닝(Auto Tuning), 오토 파이프라인(Pipeline Automation) 등)을 소개합니다.
1. 오토 프로파일링(Auto Profiling)
데이터 분석을 할 때는 데이터 속성에 대한 이해가 필요합니다. 이를 위해 과거에는 분석가가 일일이 수동으로 통계량이나 분포도를 확인했습니다. SAS 오토 프로파일링 기능은 데이터를 임포트하면 데이터 속성 정보 즉, 데이터의 전반적인 특성은 물론 각 변수의 데이터 값에 대한 세부적인 패턴 정보를 알 수 있습니다. 각각의 변수가 갖고 있는 분포값, 고유값, 결측, 최대값, 최소값, 평균 등 기본적인 통계량을 제시하므로 데이터에 대한 기본 내용을 이해하고, 이를 통해 어떤 변환 과정을 할 것인지 인사이트를 얻을 수 있습니다.
2. 자동 비주얼 인사이트(Automated Explanation)
데이터 준비를 마치면 이제, 분석에 들어갑니다. 분석은 데이터를 분석하고, 머신 러닝 알고리즘을 활용하여 모델링을 생성하고, 알고자 하는 비즈니스에 관한 예측 패턴을 발견하는 과정입니다.
자동 비주얼 인사이트는 알고 싶은 요인과 다른 모든 변수들의 영향관계를 설명해주는 기능입니다. 분석에 대한 인사이트를 얻기 위해서는 다양한 시각적 기법을 이용하는데, 여기에는 시간이 많이 소요됩니다. SAS의 자동 비주얼 인사이트는 알고 싶은 현상에 대한 변수를 선택하고, ‘설명’을 클릭하면 데이터를 자동으로 분석하여 시각적으로 보여줍니다. 관심 이벤트에 영향을 주는 주요 인자, 영향 인자와 관심 이벤트 간의 관계, 영향 인자를 중심으로 관심 이벤트가 발생할 확률이 높은 혹은 낮은 것 등 변수 선택에 따라 다양한 인사이트를 얻을 수 있습니다.
3. 오토 피처 엔지니어링(Auto Feature Engineering)
시각적인 분석을 마친 후에는 본격적인 머신러닝 모델링에 돌입합니다. 이때 모델의 정확도를 높이는 방법 중 하나가 피처(feature, 변수)를 많이 생성하여 정보 영역을 풍부하게 하는 것입니다. 이를 자동화하는 여러 가지 기능이 있는데, 피처 머신 노드와 피처 추출 노드가 대표적입니다.
1) 피처 머신 노드(Feature Machine node)
자동으로 개별 피처들의 품질을 평가하여 모델의 정확도를 높이도록 변환하여 새로운 피처를 생성하는 기능입니다. 피처 머신 노드는 데이터의 높은 카디날리티(cardinality), 높은 첨도 및 왜도, 결측값, 이상점 등을 고려하여 더 좋은 성능을 낼 수 있는 방향으로 피처를 생성합니다. 피처 하나당 하나의 피처가 아닌, 여러가지 피처를 풍부하게 생성하므로 취사 선택하여 분석에 활용할 수 있습니다.
2) 피처 추출 노드(Feature Extraction node)
피처 머신 노드가 단별량 변수에 대한 특성을 갖고 피처를 생성한 반면, 피처 추출 노드는 다변량적인 접근입니다. 알고리즘을 통해 주성분 분석(PCA), 특이값 분해(SVD), 로버스트 PCA(RPCA), Autoencoder 등의 머신 러닝 알고리즘을 사용하여 많은 변수 영역의 또다른 특징을 뽑아냅니다. 무조건 변수가 많다고 좋은 것은 아닙니다. 때론 이처럼 축약된 변수가 더 좋은 설명력을 가질 때도 있습니다.
4. 오토 튜닝(Auto Tuning)
모델의 정확도를 높이기 위해서는 다양한 피처 생성 외에도, 각각의 알고리즘이 가지고 있는 하이퍼파라미터(hyperparameter)를 튜닝하는 방법도 있습니다. 과거에는 학습률, 배치 크기 등 학습에 영향을 주는 하이퍼파라미터들을 변수값에 어떤 조합을 넣었을 때 모델이 좋아지는지를 확인하기 위해 분석가가 일일이 Trial & Error 방식으로 진행했습니다. 하지만 오토 튜닝을 사용하면, Trial 영역을 설정하는 것만으로 모든 조합을 자동으로 테스트하여 가장 좋은 조합을 추천합니다.
여기서 관건은 좋은 모델을 얼마나 빠르게 찾아내는 가입니다. 과거에는 그리드나 랜덤 서치 방식으로 최적의 조합을 찾았습니다. 하지만 SAS AutoML은 그리드와 랜덤 서치 방식은 물론, 라틴 하이퍼큐브, 베이지안, Genetic 알고리즘을 적용하여 최소의 시간으로 하이퍼파라미터를 테스트해서 최적의 조합을 찾아줍니다.
5. 오토 파이프라인(Pipeline Automation)
SAS AutoML은 피처 생성, 파라미터 튜닝을 넘어 모델 개발 프로세스를 자동으로 제공합니다. 사용자가 파이프라인 자동 생성 기능과 자동화 시간을 선택하면, AI 알고리즘이 데이터를 프로파일링한 후 Input Table의 특성을 반영한 피처 엔지니어링과 알고리즘을 제시하여 최적의 모델을 생성합니다.
타깃 유형 및 분석 수준, 자동 조율 포함 여부 등에 따라 미리 정의된 템플릿도 제공합니다. 분석 경험이 부족한 사용자는 오토 파이프라인이 제공하는 프로세스 플로우(flow)를 활용하는 대신, 타깃 변수 유형(Class/Interval)에 따라 사전에 정의된 분석 템플릿을 활용하여 쉽고 빠르게 우수한 성능의 모델을 구축할 수 있습니다.
6. 모델 해석력(Model Interpretability)
머신 러닝 모델의 정확도가 많이 높아졌지만 모델에 대한 설명은 여전히 어렵습니다. SAS는 더 빠르고 쉽게 모델을 이해할 수 있도록 부분 의존성 도표, 개별 조건부 기대치, LIME, SHAP Value 등 다양한 모델 해석 기능을 시각적인 화면과 함께 제공합니다. 모델 전체의 특성뿐만 아니라 개별 관측치에 대한 특성까지 파악할 수 있으므로 업무에 쉽게 활용할 수 있습니다.
7. 적용(Deployment)
지금까지의 프로세스를 통해 만든 모델은 이제, 잘 적용해야 합니다. SAS AutoML의 장점 중 하나가 적용을 위한 배포를 쉽게 할 수 있다는 점입니다. 여러 개의 파이프라인을 만들고 최적의 모델을 선택한 다음, ‘모델 게시’ 버튼을 누르면 DB, Hadoop, Realtime, Batch 등 원하는 데스티네이션(destination)에 원하는 모델이 배포됩니다. 그 어떤 데스티네이션에도 모델을 배포할 수 있는 이유는 복잡한 머신러닝 결과를 Astore라는 압축된 바이너리 파일 형태로 생성하고, 모델옵스(ModelOps) 방법론을 적용하여 모델에서 만든 기능을 운영단으로 바로 넘기기 때문입니다.
8. 모니터링 및 셀프러닝(Monitoring and self-learning)
아무리 최적화된 모델도 배포 후 시간이 지나면 성능이 떨어지기 마련입니다. SAS는 이를 지속적으로 모니터링하는 기능을 제공합니다. 정확도가 얼마나 떨어지는지를 모니터링하고, 일정 수준 밑으로 떨어지면 모델 셀프러닝을 적용하여 모델이 성능을 유지하도록 함으로써 비즈니스 가치를 극대화합니다.
분석의 가속화, 운영의 가속화, 분석의 대중화
기업의 목표는 분석이나 AI 구현이 아닙니다. 이는 기업의 비즈니스 가치를 실현하기 위한 수단입니다. SAS AI-Enhanced Analytics는 기업이 중요한 비즈니스 가치를 실현할 수 있도록 세 가지 관점에서 비즈니스를 지원합니다.
첫째, 분석의 가속화. SAS 솔루션을 통해 분석에 소요되는 시간을 줄여 분석의 가치를 좀더 빨리 누릴 수 있도록 합니다. 둘째, 운영의 가속화. 운영 시스템을 효율화하고, 분석의 가치가 떨어지지 않고 셀프러닝을 통해 스마트한 상태를 유지하거나 또는, 시스템을 점점 더 스마트하게 만들 수 있게 지원함으로써 비즈니스 운영을 가속화합니다. 셋째, 분석의 대중화. AI 플랫폼이 전문가들만의 전유물이 아닌, 현업에서 일하는 사용자들도 자신의 업무를 효율화할 수 있는 플랫폼이 되도록 다양한 기능을 통해 사용자 층을 넓히고 적용 영역을 확대할 수 있습니다. 이처럼 분석과 운영에 속도를 더하고 누구나 손쉽게 분석을 할 때 비로소 기업은 AI를 통한 비즈니스 가치를 극대화하고, 지속가능한 비즈니스 혁신을 이룰 수 있을 것입니다.
마이크로사이트를 통해 SAS AutoML에 대해 더 자세히 알아보세요!