텍스트 분석으로 시작하는 코로나19 리서치

0

바이러스는 어떻게 확산될까요? 전염 가능성을 높이는 요인은 무엇일까요? 사람에 따라 증상이 다른 이유는 무엇일까요? 어떤 치료법이 효과 있을까요? 백신 개발은 얼만큼 진행된 걸까요? 

매일 새로운 연구 결과가 발표되고 세계 각지에서 연구 프로젝트가 진행되고 있지만, 코로나19와 신종 코로나바이러스에 대해서 우리는 여전히 아는 것보다 모르는 것이 더 많습니다. 그리고 풀어야 할 궁금증은 지금도 계속 늘어나는 중이지요.

보통의 감염 질환 연구의 경우, 우리는 장기간에 걸쳐 광범위한 연구를 진행하고 치료법 개발과 재발 방지를 위해 연구 결과를 검토 및 활용함으로써 이러한 질문들에 대한 답을 찾아왔습니다. 하지만 지금의 코로나19 상황에서는 시간적 여유가 많지 않습니다. 관련 연구 및 데이터가 활발히 공유되고 있긴 하지만 바이러스와 싸우는 동시에 수많은 연구 논문을 읽고, 비교하고, 파악할 시간을 확보하는 것은 결코 쉬운 일이 아닙니다.

이러한 문제를 해결하기 위해 Allen Institute for AI, Semantic Scholar 및 기타 연구 기관에서 코로나19 및 기타 코로나바이러스와 관련된 50,000건 이상의 문서를 수집해 대중에 공개했는데요. 수만 건의 서류 속에서 연구자들이 원하는 연구 결과를 찾기 위해선 고급분석 기술이 필요했고, 특히 시급한 문제에 대한 답을 필요로 할 때 어떤 분석 전략을 채택해야 하는지가 큰 이슈로 떠올랐습니다.

이러한 요구 속에서 전 세계 데이터 과학자와 의료 전문가들은 텍스트 분석과 인공지능을 이용해 답을 찾기 위한 데이터 마이닝에 나섰습니다. 일반적으로 연구 관련성을 알아보기 위해 문서를 검토하려면 최소 몇 시간 이상이 소요됩니다. 여기에 AI 기반 텍스트 분석을 적용하면 검토 시간을 단 몇 초 내지 몇 분으로 줄일 수 있으며, 많은 연구자들이 원하는 문서를 빠르게 찾음으로써 생명과 직결된 문제에 대한 해답을 훨씬 빨리 구할 수 있습니다.

SAS는 임상 전문가와 역학 전문가, 그리고 데이터 과학자로 이루어진 글로벌 코로나19 분석팀을 구성해 이러한 노력에 기여하고 있습니다. 팀원들은 향후 진행될 연구에서 결과를 시각화 할 수 있는 예측 모델을 개발하기 위해 관련 출간물과 임상 데이터를 분석하고 있습니다.

현재까지의 진행 상황과 새롭게 밝혀진 정보는 무엇인지, SAS 글로벌 코로나19 분석 팀원들에게 직접 물어봤습니다.

  • Sherrine Eid (SAS 코로나19 대응팀 소속 글로벌 헬스케어 부문 수석/ 공중 보건 석사)
  • Sarah Hiser (SAS 수석 데이터 과학자/ 이학 석사)
  • Scott McClain (SAS 의료 및 생명과학 부문 컨설턴트/ 박사)

Q. 이 문서들이 코로나19 연구에 중요한 이유는 무엇이며, 연구자들이 겪는 어려움은 무엇인가요?

Sherrine Eid: 새로운 과학 연구, 특히 신종 바이러스에 대한 연구를 시작할 때 가장 먼저 필요한 것은 좋은 문헌 자료와 좋은 가설입니다. 이미 바이러스가 발병한 동안에는 더욱 그렇지요.

새로운 출간물부터 블로그 게시물, PDF 자료, 출간 전 자료, 100년 된 역학 모델에 이르기까지 – 이렇게 방대한 자료들 속에서 연구에 정말 필요한, 신뢰할 수 있는 정보를 찾아내려면 어떻게 해야 할까요?

물론 출간물에 나와있는 내용을 파악하는 일도 중요하지만, 그 전에 해당 자료의 신뢰성과 적절성을 제대로 판단하는 일 역시 매우 중요합니다. 신종 바이러스 연구 초기 단계에는 다양한 가설에 기반한 수많은 모델들이 등장하기 마련입니다. 이러한 문서들에 대해 텍스트 마이닝을 수행하면 가설 및 집단 연구 모델을 개선하는 데 도움이 됩니다.

Sarah Hiser: 분석을 이용하면 과학자와 연구자 사이 소통의 폭을 넓힐 수 있습니다. 저는 연구자들이 보다 빠르고 효율적으로 자신들의 연구 결과를 과학계에 알릴 수 있도록 이들의 협업을 지원하는 데 최선을 다하고 있습니다.

Q. 데이터를 분석하면서 현재 가장 찾고 싶은 해답은 무엇인가요?

Sherrine Eid: 우선 발행된 기사와 논문들을 면밀하게 조사할 수 있는 효율적인 방법들을 찾아야 할 것입니다. 특히 정부에서 각 지역별 의료시설의 수용 역량을 파악하고 지원을 계획하기 위해서는 맞춤형 기능을 갖춘 지능형 검색 엔진이 필요합니다.

저는 공중 보건 전문가로서 이러한 문서들을 검토해 지역별 한계점을 파악하는 데 도움이 되는 실마리를 찾을 수 있습니다. 또한 방역 수준을 완화할 경우 특정 지역 및 인구 집단에 어떤 영향을 미칠 지도 예측해 볼 수 있습니다.

Sarah Hiser: 저는 코로나바이러스의 변이에 대비해 유전자 변이와 관련된 문서를 과학적으로 검토하며 다음과 같은 질문들의 답을 찾고 있습니다.

  • 바이러스는 어떻게 변이되며, 이러한 변이가 바이러스 자체 특성에 어떤 영향을 미칠까?
  • 바이러스의 특성 및 변이 유형(strains)에 따라 감염율이 다를까?
  • 잠복기 및 무증상 감염율 측면에서는 또 어떤 차이가 있을까?

이러한 연구 결과를 기반으로 만약 더 공격적으로 변이된 바이러스가 우리 지역에 있다는 사실을 알게 된다면, 방역 정책 수준을 비롯한 중요한 의사결정을 내릴 때 관련 정보를 참고할 수 있을 것입니다.

Scott McClain: 저희는 발병 지역을 연구하면서 지리공간(geospatial) 분석과 유전자 분석 기법을 결합해 바이러스의 다양한 진화 양상과 위치를 모니터링하고 있습니다.

지리공간 분석 기술을 이용하면 특정 지역에 바이러스 발병이 어느 정도 임박했는지 알 수 있으며, 공중 보건 책임자들이 향후 필요한 자원과 지원을 계획하는 데 도움이 됩니다. 전염병은 2차, 3차 감염으로 확산될 수 있기 때문에 이러한 데이터를 이용하면 바이러스 변이 유형에 따라 영향력이 어떻게 달라지는지, 어떤 지역에 2차 감염이 발생할 확률이 높을 지 미리 예측해볼 수 있겠지요.

Q. 이러한 텍스트 분석 연구 시 SAS 소프트웨어의 장점은 무엇인가요?

Sherrine Eid: 지능형 검색 엔진은 서로 다른 영역의 전문가들이 지닌 저마다의 궁금증을 바탕으로 개발됩니다. 예를 들어 정부 소속의 전염병학자와 임상 전문가는 서로 다른 관심과 질문을 갖고 문서를 검색하지요. 이러한 직무 기반의 검색 엔진은 개인에게 가장 관련성이 높은 콘텐츠를 제시한 다음, 또 다른 유관 자료들을 매칭해 줍니다. 이후 SAS의 네트워크 분석 기능이 추가 검색 경로를 제시해주면, 심층 분석을 통해 매우 구체적인 질문에 대한 텍스트 분석에 초점을 맞출 수 있습니다.

Scott McClain: 시민 과학자에게 가장 도움이 되는 부분은 바로 SAS 소프트웨어 전반에 강력한 분석 기능이 내장되어 있다는 점입니다. 텍스트 분석에 개념과 구문, 정서, 주제 등을 활용하면 내가 원하는 인사이트를 보다 빠르게 도출할 수 있습니다. SAS 시스템에 로그인 하면, 특정한 맥락 정보를 지닌 기사에서 자주 언급되고 관련성 높은 핵심 용어들이 목록화되어 제공됩니다. 이러한 작업은 별도의 입력 없이 모두 자동으로 이뤄집니다.

간단히 말해 SAS를 사용하면 내가 특정 용어들을 염두에 두지 않아도 쉽게 텍스트 분석을 시작할 수 있습니다. 문서를 일일이 훑어보는 것보다 훨씬 빠르게 방대한 정보를 면밀히 조사할 수 있으며, 다수의 데이터 요소들을 토대로 관련성 높은 정보를 찾을 수 있습니다.

Sarah Hiser: 한 사람이 35,000건에 달하는 문서를 읽고 모든 내용을 이해하기란 불가능합니다. 하지만 알고리즘을 훈련시켜 원하는 내용을 찾고 연구의 범위를 넓히는 것은 가능하지요. 마치 AI 기술을 사용하는 500명의 인턴들이 자료를 먼저 확인한 후, 제 연구에 필요한 정보를 가져오는 것과 같습니다. 이렇게 얻은 인사이트는 내가 다음에 무슨 정보를 찾아야 할 지 결정하는 데 도움을 주며, 분석 모델 트레이닝을 통해 훨씬 더 많은 결과를 얻을 수도 있습니다.

Q. 코로나19와의 전쟁에서 이러한 연구가 가지는 의의는 무엇일까요?

Sherrine Eid: 오직 한 가지 연구 결과만으로 특정 지역에 방역 정책을 결정하는 것은 충분하지 않을 수 있습니다. 하지만 서로 다른 세 가지 연구 결과를 바탕으로 필요한 정보를 모을 수 있다면 더 나은 의사결정을 내릴 수 있겠지요. 코로나19 연구에 텍스트 분석을 활용하면 프로토콜이 각기 다른 환자들을 언제 관리해야 하는지, 테스트가 시급한 환자나 산소 투입이 시급한 환자가 누구인지 알 수 있습니다. 텍스트 분석을 통해 우리는 과학자들과 협력하고 그들의 연구에 힘을 보탤 수 있습니다. 코로나바이러스에 대해 새롭게 발견하는 모든 사실과 우리가 찾은 해답은 감염 환자의 생명을 구하는 데 도움이 될 것입니다. 아직 백신이 개발되지 않은 상황에서 새로운 연구 결과를 바탕으로 방역을 위한 정책을 잘 준수한다면, 지금의 상황을 함께 극복해 나갈 수 있을 것입니다.

코로나19 텍스트 분석 소프트웨어 신청하기

AI 기반 텍스트 분석으로 수만 건의 문서에서 원하는 인사이트를 빠르게 찾아보세요. SAS는 COVID-19 연구를 지원하는 스마트 검색 기능 및 분석 환경을 무료로 제공합니다.


해당 포스팅은 SAS COVID-19 Global Scientific Advisory Team 소속 Jeremy Racine의 원문을 일부 편집한 내용입니다. SAS의 코로나19 데이터 분석 리소스 허브에서 코로나19 관련 최신 데이터 및 분석 솔루션, 글로벌 대시보드, 온라인 교육 콘텐츠 등을 확인해보세요.
Share

About Author

Jeanne (Hyunjin) Byun

Related Posts

Leave A Reply

Back to Top