SAS para Ciência de Dados? Sim!

0

A evolução do analytics e da ciência de dados gera constantes atualizações e transformações nas plataformas de análises. Este artigo tem o propósito de apresentar como o SAS tem acompanhado essa evolução.

Ambiente Integrado: uma única plataforma, diversas tarefas

O SAS oferece recursos que permitem acessar, explorar, transformar, analisar e governar seus dados, além de permitir que diferentes usuários colaborem e compartilhem os insights com base neles. Em vez de serem fornecidos separadamente, os recursos SAS são desenvolvidos em torno de um alicerce completo e integrado, que chamamos de plataforma SAS. Ela é preparada para atender aos usuários desde a exploração e preparação dos dados, até o gerenciamento, publicação e monitoramento de modelos SAS e open source, oferecendo recursos de integração e aproveitando a usabilidade e o grande poder computacional de linguagens como R e Python. Esses modelos podem ser implementados usando uma interface “drag-and-drop”, facilitando a compreensão do usuário.

Governança de processos

Esse ambiente integrado facilita o processo de governança dentro da organização. Muitos projetos de ciência de dados falham porque diversas áreas estão envolvidas em diferentes etapas do projeto, cada uma utilizando uma tecnologia e que não necessariamente se integram. Esse cenário tende a tornar o projeto confuso, de difícil manutenção e, por isso, diversas vezes abandonado. Esse padrão é demonstrado por uma pesquisa do Gartner que aponta que 53% dos modelos de Ciência de Dados não são totalmente implantados, e que quase metade nem é implantado. As soluções do SAS contam com ferramentas que incluem fluxos de tarefas que atribuem responsabilidades e regras a diferentes usuários, de modo a garantir que todas as etapas de um projeto sejam concluídas, assegurando a governança do processo.

In-Memory MPP

A popularização do analytics na última década se deve, entre outros fatores, ao desenvolvimento das plataformas de processamento massivo distribuído, que tornaram possível analisar volumes de dados muito maiores, em um intervalo de tempo mais curto, com menor custo e permitem um crescimento mais sustentável.

A plataforma SAS Viya utiliza esse tipo de processamento, fazendo a distribuição através da memória do cluster, com múltiplas threads por nó e processo aprimorado de shuffling (redistribuição dos dados entre nós). Além disso, permite compartilhar conjuntos de dados carregados entre processos e usuários distintos, eliminando etapas e otimizando o pipeline analítico como um todo. Isso pode ser visto na figura ao lado, na qual temos um exemplo simplificado de a) processamento sequencial (SMP) e b) processamento massivo distribuído (MPP) com SAS Viya e Hadoop colocated.

A partir do SAS, também podemos aproveitar os recursos de outras plataformas, por exemplo, para enviar cargas de preparação de dados ao Hadoop e, na sequência, utilizar a tabela resultante para treinar modelos no Viya, como na figura acima. Além disso, os dados gerados pelo Hadoop são carregados para a memória de forma paralela para garantir ainda mais performance.

 

Democratização

1. Point-and-click

Alinhado com a ideia de democratizar o analytics, o SAS possui ferramentas e soluções capazes de atender os cientistas de dados e os analistas de negócio com suas interfaces point-and-click para executar uma infinidade de tarefas como:

  • Manipulação de dados;
  • Geração de gráficos;
  • Estatísticas descritivas;
  • Análises multivariadas;
  • Data mining;
  • Séries temporais

Assim, torna-se possível executar essas tarefas sem a necessidade de aprender estruturas complexas de programação, auxiliando nos seus processos e gerando insights de forma ágil.

O “jeito SAS” de ser nunca foi uma caixa preta, pois para todas as funcionalidades point-and-click o código é gerado para que o usuário entenda o que está acontecendo, o que pode ser também uma forma de começar a aprender como funciona a programação SAS.

2. Programação: SAS Code é simples e completo

Para os apaixonados por programação, o SAS também possui uma interface onde o usuário é capaz de explorar um conjunto amplo de funcionalidades através de estruturas como DATA STEP ou PROC SQL para manusear dados e suas inúmeras procedures que geram análises e relatórios sobre um conjunto de dados, de maneira muito fácil e rápida.

Seja com a utilização de point-and-click ou por meio de programação, o que muitos não sabem é da possibilidade de se utilizar o SAS para desenvolver projetos de machine learning ou inteligência artificial.

3. Machine Learning and AI

Mas SAS é para ML ou IA? SAS não é só pra fazer ETL? Não!

O SAS tem evoluido nos últimos tempo com relação à disponibilização de novos algoritmos, incluindo técnicas de machine learning (Redes Neurais, Random Forest, Gradient Boosting,...), deep learning e capacidade de minerar textos, além disso há funcionalidades como auto ML e autotuning que ajudam a construir modelos mais acurados e de maneira mais rápida.

Outro ponto interessante é com relação à interpretabilidade dos modelos, que pode ser feita pela utilização de métricas, como PD, ICE, LIME, Kernel SHAP, como também por texto gerados utilizando NLP, conforme figura ao lado.

E o melhor de tudo isso é que conseguimos nos integrar a ferramentas Open Source, como veremos na próxima sessão.

4. Integração com Open

No cenário atual, um dos pontos mais importantes para qualquer arquitetura analítica é manter uma estratégia aberta. Com um ritmo de inovação tão alto e diversas comunidades ativas, é necessário estar preparado para utilizar as mais diversas bibliotecas e ferramentas disponíveis, independentemente da linguagem ou desenvolvedor, pois assim podemos aproveitar os benefícios que cada recurso oferece de melhor.

Com o SAS podemos:

  • Treinar, tunar e comparar modelos desenvolvidos em SAS, Python e R com o objetivo de buscar o máximo de performance;
  • Gerenciar todo o ciclo de vida dos modelos, desde a implantação, o monitoramento até o retreino, e integrar ferramentas como Jenkins, GitHub e Docker para aplicar conceitos de DevOps e montar uma esteira de ModelOps;
  • Habilitar a execução desses modelos em batch, stream ou tempo real, seja utilizando uma infraestrutura SAS, Hadoop, Kubernetes ou AKS;
  • Automatizar fluxos de decisão combinando modelos com regras de negócio e criar APIs REST para integrá-los com as aplicações transacionais.

Na sequencia podemos ver um exemplo de arquitetura analítica aberta:

Tudo que vimos até agora pode gerar dúvidas e obstáculos no momento do desenvolvimento ou implantação, mas para isso podemos contar com a comunidade SAS existente e nosso suporte avançado.

5. A comunidade SAS e o suporte avançado

A existência de comunidades, na maioria das vezes utilizadas para troca de experiências de usuários com o mesmo objetivo, é comum quando falamos de software.

O SAS, além de ter a comunidade mais antiga (mais de 44 anos), também conta com os melhores experts para fornecer suporte especializado e focado em resolver problemas de todas as naturezas, abordando desde as frentes de Machine Learning e Inteligencia Artificial, como também dados e infra.

Além disso, o SAS tem desenvolvido bibliotecas com o objetivo de se integrar com soluções Open, como R e Python por exemplo, e todos os códigos estão disponíveis em seu GitHub.

 

 

Assim como as técnicas de ciência de dados evoluíram nos últimos anos, o SAS também evoluiu. Se engana quem pensa que o SAS mantém a tecnologia e aspecto do SAS Base. Atendendo às necessidades dos seus usuários, o SAS lançou nos últimos anos soluções para processar volumes massivos de dados, integrar-se com linguagens Open Source, governar o processo analítico do início ao fim, facilitar o acesso ao conhecimento pela área de negócio, entre outras funcionalidades que o colocam na mira de empresas empenhadas em alavancar seus projetos de ciência de dados.

 

São coautores deste artigo Aline Riquetti, Cristiane Rodrigues, Larissa Lima, Lívia Moraes e Victor Rodrigues. 

Share

About Author

Mariana Fontanezi

Customer Advisory, SAS

Mariana Fontanezi é graduada em Estatística pela Escola Nacional de Ciências Estatísticas e pós graduada em Engenharia de Produção pela Universidade Federal Fluminense. É Customer Advisory na área de Analytics no SAS, com foco nas principais soluções para planejamento de demanda, técnicas de otimização, técnicas de pricing nas industrias: varejo, manufatura, energia, telecom e outras. É especialista em técnicas de séries temporais utilizando os principais softwares de mercado como: SAS Forecast Server, SAS Visual Forecasting, SAS Econometric and Time Series (ETS), SAS Forecast Analyst Workbench, R. Possui conhecimento em análise de dados e técnicas de Data Mining com experiência e visão em diferentes áreas de negócio.

Leave A Reply

Back to Top