SoDA로 데이터 과학 시작하기

0

SoDA를 이용해 쉽게 배우는 데이터 과학 #1

SoDA(SAS OnDemand for Academics)는 SAS가 무료로 제공하는 교육용 데이터 분석 소프트웨어 프로그램입니다. 앞으로 4회에 걸쳐 'SoDA 를 이용해 쉽게 배우는 데이터 과학'을 자세히 소개해 드리도록 하겠습니다. 

SoDA란?

SoDA (SAS OnDemand for Academics; SoDA)는 데이터 과학을 처음 배우는 입문자들에게 SAS를 무료로 배울 수 있도록 서비스되는 교육용 도구입니다. 상업적인 목적으로만 사용하지 않는다면, 누구나 데이터 과학을 배우는 데에 SoDA를 사용할 수 있습니다1). SoDA는 클라우드 환경에서 웹 브라우저를 통해 사용할 수 있어 인터넷만 연결되어 있다면, 어디서든 쉽게 사용할 수 있으며, 따로 설치할 필요가 없습니다. SoDA는 SAS의 STAT, ETS, OR, IML 등 다양한 제품을 SAS Studio (Client Software)를 통해 접할 수 있도록 구성되어 있어 상당히 다양한 기능을 무료로 접할 수 있는 장점이 있습니다. 다만 교육용으로 제공되는 만큼 ‘5GB’로 용량 제한을 두고 있습니다.

SoDA에서 제공하는 SAS 제품 리스트1):
  • Base SAS
  • SAS/STAT software
  • SAS/GRAPH software
  • SAS/ETS software
  • SAS/OR software, including OPT, PRS, IVS, and LSO
  • SAS/IML software
  • SAS/CONNECT
  • SAS High-Performance Forecasting
  • SAS/ACCESS Interface to PC Files
  • SAS/QC software

1) SAS® OnDemand for Academics User’s Guide

SoDA인가?

<SoDA 사용 고객사>

SoDA는 크게 다섯 가지 장점을 가지고 있습니다. 첫째, 높은 경제성입니다. SoDA는 상용 소프트웨어 개발사에서 제공하는 소프트웨어 중 유일하게 무료입니다. 둘째, 높은 신뢰도입니다. SAS는 포춘 100대 기업 중 90%가 사용하는 '검증된' 도구입니다. 셋째, SoDA는 통계학과 교과과정의 80% 이상을 커버할 수 있는 높은 기능성을 가지고 있습니다. SoDA는 기초 통계부터 다변량 분석 같은 고급 분석까지 코딩 없이 쉬운 사용자 인터페이스로 지원합니다. 넷째, 높은 확장성입니다. SoDA는 프로그래밍이 아닌 데이터 분석에 중점을 두고 있습니다. 그렇기 때문에 도구에 의존하지 않으며, 도구를 바꿔도 쉽게 적응할 수 있습니다. 다섯째, 높은 접근성입니다. 프로그래밍에 익숙하지 않은 데이터 과학 입문자도 ‘코딩 없이’ 데이터 처리에서 고급 분석까지 모두 배울 수 있습니다.

<왜 SoDA인가?>

세계적인 기업들의 선택

<높은 신뢰도>

SAS는 지난 40여년 간 시장에서 높은 신뢰도를 인정받고 있는 세계 1위 데이터 분석 및 비즈니스 솔루션 기업입니다. SAS의 신뢰도는 포춘(Fortune) 선정 100대 기업 중 90%가 사용한다는 사실만으로 충분히 입증되었습니다. 또한 세계적인 IT 시장조사 기업인 가트너(Gartner)에 따르면, SAS는 데이터 과학과 기계학습 영역에서 '글로벌 리더'로 평가받고 있습니다. SoDA는 SAS에서 제공하는 다양한 제품 중 데이터 과학을 배우는 데에 적합한 제품을 골라 무료로 서비스하고 있습니다. 그렇기 때문에 기존 SAS 솔루션이 가진 신뢰성은 SoDA에서도 유효합니다.

이정도면 충분한 데이터 과학 도구

<높은 기능성>

SoDA는 데이터 과학을 위한 모든 기능을 지원하지는 않지만, 대부분의 데이터 과학자에게 필요한 충분한 기능을 제공합니다. SoDA는 데이터 처리, 분석, 시각화 모두를 지원합니다. 이 점에서 SoDA는 데이터 과학을 맛보기에 적합합니다. SoDA는 통계학과 학부와 대학원 수준에서 필요한 기능 중 약 90% 이상을 지원하고 있습니다.

코딩이 아닌, ‘분석을 위한 도구

<높은 확장성>

아이폰에는 사용 설명서가 없습니다. 애플은 누구나 쉽게 자사 제품을 이용할 수 있도록 UI를 설계하기 때문입니다. 그렇기 때문에 사용자는 굳이 설명서를 살펴보지 않아도 아이폰의 기능을 쉽게 익힐 수 있습니다. 아이폰은 고객 친화적인 기능을 통해, 고객이 도구를 익히는 노력을 없애 버렸습니다. SoDA 역시 마찬가지입니다. 많은 데이터 과학 도구들은 도구를 익히는 데에 두꺼운 책 한 권 이상의 지식을 요구합니다. 하지만 SoDA를 익히는 데에 걸리는 시간은 길어도 일주일이면 충분합니다. 그렇기 때문에 데이터 분석에만 보다 많은 시간을 투자할 수 있습니다. 이 장점은 도구를 확장하는 데에도 유용합니다. 이미 SoDA를 통해 분석을 충분히 배웠다면, 다른 어떤 도구를 만나도 분석을 몰라서 못하는 일은 없을 것입니다.

Low-Code/No-Code(LCNC) 선택은 당신의 몫

<높은 접근성>

‘나는 코딩을 잘하기 때문에 굳이 SoDA를 몰라도 되겠는 걸?’이라고 생각하시는 분도 계실 것 같습니다. 하지만 그렇다고 LCNC 도구가 필요 없는 것은 아닙니다. LCNC 도구의 가장 큰 장점은 ‘코드 재사용률’을 극도로 높일 수 있다는 점이기 때문입니다. 코딩을 많이 해본 사용자라면, 코딩을 하다가 갑자기 특정 코드가 떠오르지 않았던 경험이 있을 것입니다. 이 경우 LCNC 도구는 매우 유용합니다. 기능 단위로 구성되어 있는 NC 도구를 이용해, 원하는 기능을 구현하기 위한 코드를 쉽게 찾아볼 수 있기 때문입니다. SoDA의 ‘프로그래머 모드’를 이용하면, 언제든 SAS 프로그래밍을 할 수 있습니다. 그리고 프로세스 플로우를 이용하면 언제든 LCNC 기능을 이용할 수 있습니다. 또한 오픈 소스에 익숙한 사용자들을 위한 Jupyter Notebook 환경도 지원하니, 필요하다면 이용해 보시기 바랍니다.

무엇보다 무료로 사용할 수 있다는 장점

<높은 경제성>

SoDA는 사용이 편합니다. SoDA의 [작업 및 유틸리티]에는 데이터 처리와 분석 등을 위한 작업들이 Point-and-Click 방식으로 이용할 수 있도록 정의되어 있습니다. 사용자는 단지 구성된 작업을 선택하고, 작업에 사용할 데이터와 변수 등을 할당하면 쉽게 작업을 수행할 수 있습니다. 또한 관련 옵션들 역시 같은 방법으로 쉽게 변경할 수 있습니다. 정의된 작업들은 사용자가 설정한 내용을 기반으로 코드를 생성합니다. 그렇기 때문에 SAS 프로그래밍을 다룰 수 있는 사람은 코드 생성 결과를 다양한 용도로 활용할 수 있습니다.

SoDA는 관리가 편합니다. SoDA는 '프로세스 플로우(process flow)' 기능을 지원합니다. 이 기능은 데이터 처리부터 분석, 시각화까지 전 과정을 '흐름도'로 보여줍니다. 이와 같이 프로세스로 시각화 되어 있는 경우, 처음 작업을 보는 사람도 이해하기 쉽고, 설명도 편리한 장점이 있습니다. 그 결과 소통을 위한 비용과 시간이 절약되어 작업 생산성을 높일 수 있습니다.

SoDA는 코드 재사용이 쉽습니다. 코드 재사용은 이미 만들어 둔 코드를 변수나 데이터만 바꿔 다시 사용하는 기능을 말합니다. SoDA는 Snippet(스니펫)으로 자주 사용하는 코드를 등록하고, 필요할 때 코드를 프로그램 창에 작성하도록 할 수 있습니다. 또한 '매크로(macro)' 기능으로 사전 정의된 매크로의 입력 값만 바꿔 유연하게 코드를 재사용할 수 있습니다.

 

오늘은 SoDA가 무엇이고, 왜 SoDA로 데이터 과학을 시작하면 좋은지에 대해 알아보았습니다. SoDA는 교육 목적으로 SAS의 다양한 제품을 무료로 만나 볼 수 있는 서비스입니다. SoDA는 사업적인 목적으로 사용하지만 않는다면, 누구나 이용할 수 있었습니다. SoDA를 데이터 과학 입문자들에게 추천하는 이유는 크게 다섯 가지였습니다. 첫 번째 이유는 포춘 100대 기업 중 90개 기업이 사용할 만큼 신뢰도가 높은 제품이기 때문이었습니다. 두 번째는 데이터 처리와 분석 모두를 하나의 도구로 경험할 수 있고, 통계 교과목의 대부분을 다룰 수 있는 기능성이 그 이유였습니다. 세 번째는 특정 언어나 환경에 의존적인 코딩을 배우기보다 사용 범위가 훨씬 넓은 분석을 집중적으로 배울 수 있기 때문이었습니다. 네 번째 이유는 코딩을 배우지 않아도 사용할 수 있는 LCNC 도구이면서 동시에 프로그래밍도 사용할 수 있는 장점이 있기 때문입니다. 다섯 번째, 사용 소프트웨어를 ‘무료’로 이용할 수 있고, 다양한 코드 재 사용 기능과 커뮤니케이션을 수월하게 하는 기능을 제공하기 때문이었습니다. 이와 같은 다섯 가지 장점은 데이터 과학 입문자에게 큰 도움이 될 것입니다.

다음 회에서는 SoDA의 활용 방법에 대해 알아보겠습니다.

*SoDA에 대한 보다 자세한 내용은 여기를 참조하시기 바랍니다.

Share

About Author

Noah Han

Related Posts

Leave A Reply

Back to Top