2019 데이터 사이언티스트로 향하는 길

0

불과 몇 년 전 까지만 해도 ‘데이터 사이언티스트’라는 단어는 많은 사람들에게 꽤나 생소한 단어였을 것입니다. 하지만 4차 산업혁명이 이미 산업 전반에 깊숙이 자리한 오늘날, 빅데이터 분석이 핵심 역량으로 부상하며 데이터 과학자(data scientist)의 인지도 역시 굉장히 높아졌습니다. 단순히 인지도뿐만이 아닙니다. 세계 최대 취업 정보 사이트 글래스도어(Glassdoor)가 발표한 2019년 ‘미국 최고 직업 50위’에서 4년 연속 1위를 차지하기도 했는데요. 국내에서도 많은 기업들이 그 필요성을 인지하고 데이터 전문 인력 채용을 계속 확대하고 있습니다.

데이터 사이언스 전문가로 거듭나기 위해 갖춰야 하는 역량은 어떤 것들이 있을까요? 여러분께 보다 현실적인(!) 팁을 드리기 위해, 실제 SAS의 데이터 사이언스 전문가 Tina와 Alex가 말하는 ‘데이터 사이언스 전문가가 갖춰야 할 다섯 가지 태도’를 소개합니다.

 

(1) 데이터 과학은팀플레이라는 것을 기억하라

일반적으로 데이터 사이언스 팀은 규모가 작고, 회사 전체 또는 여러 지역에 분산되어 있습니다. 그러다 보니 다른 부서와 단절된 상태로 일하는 경우가 많은데요. 기업의 다양한 분석 요구와 함께 급격히 확장되는 분석 활용 범위에 제대로 대처하기 위해서는, 팀의 규모가 커져야 합니다. 여기서 규모가 커진다는 말이 반드시 팀의 내부 인력을 충원해야 한다는 의미는 아닙니다. 비즈니스 관계자, 데이터 엔지니어, 어플리케이션 개발자 등을 지원군으로 얻는 것도 일종의 팀 확장에 해당됩니다.

시장조사기관 포레스터(Forrester)에 따르면 이런 식으로 확장된 데이터 사이언스 팀의 규모가 향후 5년 내에 소프트웨어 개발팀의 규모를 넘어설 것으로 전망됩니다. 데이터 과학자로서 최고의 역량을 발휘하려면, 이렇게 서로 연결되는 모든 관계자들의 협조와 지지를 얻어야 합니다. 모든 사람이 분석 및 인공지능에 대한 공동 목표를 달성하는 데 저마다 중요한 역할을 하기에, 팀원 간의 효과적인 팀플레이가 반드시 필요합니다

 

(2) 자동화를 적극적으로 수용하라

 데이터 과학은 지적 능력을 동원하여 분석력과 모델링 능력을 자극해야 하는, 그 결과 보람과 성취감을 느낄 수 있는 일종의 지적 훈련입니다. 크라우드소싱 기업 크라우드플라워(CrowdFlower)의 조사에 따르면 안타깝게도 데이터 과학자가 실제 이런 활동에 투자하는 시간은 업무 시간의 20%에 불과합니다. 데이터 과학자는 대부분의 업무 시간을 데이터 세트 수집, 준비, 정리에 사용합니다.

SAS는 데이터 준비 및 자동 조정, 모델 평가 및 해석, 인공지능으로 구현되는 추천 엔진 등 작업의 효율성을 제고하는 다양한 분석 툴을 제공합니다. SAS의 분석 솔루션을 사용하여 업무 생산성과 팀 전체의 분석 능력을 업그레이드 해 보세요. 여러분의 팀도 비로소 하버드비즈니스리뷰(Harvard Business Review)가 선정한 "21세기 가장 매력적인 직업" – 진정한 데이터 사이언티스트로 인정받을 수 있을 것입니다!

 

(3) 실험 정신을 발휘하라

 우연한 발견을 통해 최초의 항생제인 페니실린 개발의 초석을 마련한 알렉산더 플레밍(Alexander Fleming)의 표현을 빌리자면, 인간은 가끔 의도하지 않았던 것을 발견하곤 합니다. 데이터 과학의 의문은 일반적으로 가설 설립에서 시작되지만, 때로는 데이터 자체가 곧 가설인 경우도 있습니다. 이런 과정이 반복되다 보면 아무도 예상치 못했던 인사이트에 도달할 수도 있습니다.

데이터를 제대로 실험하기 위해서는 여러 자원이 필요합니다. 데이터 과학자들은 샘플이나 하위 집합뿐만 아니라 관련 데이터를 모두 확보해야 합니다. 특히 인공지능과 머신러닝의 경우 데이터 중심의 알고리즘을 사용하기 때문에, 데이터가 많을수록 모델의 완성도 역시 높아집니다. 앞서 설명했던 ‘확장된 팀’과 협업하면 데이터 확보가 한결 수월해질 것입니다. 여기에 제한된 시간 안에 데이터를 거듭 테스트하기 위해서는 고성능 분석 엔진 또한 필요합니다.

가능한 많은 알고리즘과 분석 툴, 다양한 기술들에 오픈 마인드를 가지세요. 원하는 답을 찾기 위해 어떤 질문을 해야 하는 지조차 모를 때, 지나간 경험들 속에서 의외의 실마리를 얻을 수도 있습니다. 마지막으로 코딩 언어 종류에 상관없이 신뢰할 수 있는 결과를 얻으려면 거버넌스 표준이 필수라는 점도 잊지 마세요!

 

(4) 타이밍을 놓치지 마라

데이터 과학자들에게 몇 달을 고생해서 만든 새로운 모델을 실제로 사용한 적 있는지 물어보면 다소 실망스러운 답변을 들을 가능성이 큽니다. 포레스터에 따르면 데이터 사이언스 전문가들 사이에서는 공들여 만든 모델이 실제로 구현되는 경우가 드물다는 불평이 꽤 흔합니다.

발견에 그치지 않고 효용성 있는 인사이트에 이르려면 데이터 사이언스 팀과 IT 팀 간의 단절된 워크플로우를 반드시 극복해야 합니다. 비즈니스 측면에서 개발된 분석 모델을 실제 생산 환경에서 사용하려면 코딩 작업을 다시 해야 하는 경우가 종종 있는데, 몇 주 혹은 몇 달까지 소요되는 이 수동 프로세스 과정에서 비즈니스 기회를 놓치는 경우가 허다합니다. 그렇지만 여러분이 SAS를 사용한다면, 다른 언어로 개발된 모델도 공통의 프레임워크를 사용하여 구현할 수 있습니다. (SAS처럼 효율적인 분석 플랫폼이라면 반드시 지원해야 하는 기능입니다!) 그리고 명심하세요. 분석은 역동적인 과학이기 때문에 아무리 완벽한 모델도 타이밍을 놓치면 그 가치를 잃어버릴 수 있습니다.

(5) 윤리적 이슈에 민감하라

SAS는 세계적인 분석 선두 기업으로서, 인공지능의 윤리적 문제를 감독하는 일을 게을리하지 않습니다. AI는 기술을 개발하거나 사용하는 직접적인 관련자들을 넘어, 모든 이들의 삶에 영향을 미칩니다. AI 알고리즘을 프로그래밍하는 과정에는 인간의 편견이 개입될 수 있습니다. 단적인 예로, 미국에서 사용된 범죄 위험 예측 알고리즘이 아프리카계 미국인에 대해 편견을 가지고 있는 사실이 확인된 바 있었죠. 또한 AI는 신용 평가부터 채용 절차에 이르기까지 의사 결정을 내리는 데 있어, 오로지 축적된 개인 식별 정보에만 의존하는 경우가 많습니다. 반대로 말하면, 데이터가 존재하지 않는 인공지능의 분석은 무용지물이란 사실을 명심할 필요가 있다는 것입니다.

민간 기업이 인공지능을 사용할 때 준수할 가이드라인을 확립하겠다는 취지에서 캐나다 재무부는 인공 지능을 구현 방안에 대한 온라인 상담에 앞장서고 있습니다. 데이터 사이언티스트 커뮤니티 역시 이러한 활동에 적극적으로 참여하고, 공공의 신뢰를 잃지 않도록 그 결과를 업무에 늘 반영해야 할 것입니다.

 

이상 SAS의 실제 전문가들이 제안한 데이터 과학자로서 지녀야 할 5가지 태도를 모두 소개해드렸습니다. 이제 막 분석에 입문하신 초보 과학자부터 베테랑까지, 부디 올해에는 여러분께서 진행하는 모든 데이터 사이언스 프로젝트가 성공으로 귀결되길 기원하겠습니다.

분석의 효과를 극대화하기 위한 자세한 방법이 궁금하신 데이터 사이언티스트 분들은 무료 e-book에서 확인해보세요!


해당 기사는 Tina Schweihofer와 Alex Terado의 원문을 일부 편집한 내용입니다.
Share

About Author

Jeanne (Hyunjin) Byun

Related Posts

Leave A Reply

Back to Top