Uma das profissões mais cobiçadas e bem remuneradas atualmente é a de Cientista de Dados. Grandes empresas de telecomunicações, instituições financeiras e redes de varejo estão formando times com estes profissionais, e o movimento não é restrito às grandes corporações. Empresas médias também estão sedentas em busca de cientista de dados para explorar as informações e trazer insights valiosos para os negócios.
Em diversos encontros com executivos, escuto queixas sobre como é difícil atrair e reter os cobiçados data scientists. O mercado apresenta uma demanda não suprida pela oferta, o que eleva o nível dos salários e dos benefícios oferecidos.
Fonte: https://techhub.dice.com/Dice-2020-Tech-Job-Report.html
O gráfico acima revela que a demanda por engenheiros de dados e por cientistas de dados aumentou respectivamente em 50% e 32% em relação ao ano de 2019. O crescimento de vagas para profissionais capazes de manipular dados foi maior que o crescimento de vagas para carreiras de TI tradicionais - como exemplo DevOps e desenvolvimento mobile.
O efeito prático é que estamos vendo profissionais migrarem de áreas tradicionais, como BI e modelagem estatística, para o mundo de data science. O caminho da capacitação parece claro, mas, na prática, algumas dificuldades acontecem quando o cientista de dados começa a colocar a mão na massa, ou melhor, a mão nos dados.
Principais desafios para se tornar um cientista de dados:
- • Estatísticos precisam aprender técnicas de extração e saneamento de dados
- • ‘Computeiros’ precisam aprender técnicas estatísticas
- • O acesso ao data lake ou big data é limitado e requer conhecimentos técnicos específicos
- • A concorrência no acesso aos dados é grande e a performance na recuperação dos mesmos deixa a desejar.
Figura: Visual Analytics e Visual Statistics, ferramentas visuais de Data Science
Frente à crescente pressão por prazos e resultados, o cientista de dados precisa entregar análises rapidamente, tendo como obstáculos as limitações de TI ou a falta de conhecimentos técnicos específicos. Uma alternativa para obter agilidade e performance a partir dos dados do seu big data é utilizar uma ferramenta de exploração visual, capaz de manipular e tratar dados em memória, podendo aplicar modelos estatísticos avançados que empregam técnicas de machine learning.
Os ganhos de produtividade são evidentes e o cientista de dados pode realizar entregas parciais que contribuem para um aprimoramento das métricas do modelo final. O fato de manipular dados e modelar em memória, de forma gráfica, também favorece a interação com usuários de negócio que podem acompanhar de perto a evolução do trabalho e contribuir com insights adicionais.
É claro que um estatístico poderá incrementar os resultados iniciais da modelagem usando técnicas específicas, mas o ponto principal é o fato de ele poder evoluir a partir de um trabalho já estabelecido. Este trabalho entrega insights e dados tratados, eliminando grande parte do overhead que o Data Scientist teria ao realizar estas tarefas manualmente.