SAS e Open Source – Governabilidade

0

No início deste mês tive o prazer de participar como speaker no evento  Platform Roadshow – Road2AI promovido pelo SAS. Nesta conferência foram abordados diversos temas interessantes, entre eles Inteligência Artificial, Cloud, Ofertas SAS adequados a diversas expertises. Sob a minha responsabilidade ficou o tema SAS e Open Source – Governabilidade.

Na minha visão, este tema por si só já seria merecedor de um evento inteiro onde teríamos sessões dedicadas às  diversas características desta conjugação: SAS e Open Source.

Na verdade,  este "relacionamento" tem dado muito certo. Primeiro porque o SAS nunca viu  o Open Source como um opositor e, para logo,  porque quando combinada com a Plataforma SAS, a usabilidade do Open Source é potencializada ao máximo.

A adesão ao uso de Open Source vem crescendo a cada dia e este crescimento está diretamente relacionado com o facto de as Faculdades e Universidade estimularem o seu uso. Eu mesmo tive contato com Open Source durante a minha graduação em Estatística. O uso não era só estimulado mas, para muitos professores, ele era exigido.

Esta situação se mantém até hoje. Temos diversos cursos com centenas e centenas de alunos se formando que, quando chegam ao mercado de trabalho, tendem a optar pelo uso destas tecnologias. Excelentes tecnologias, diria eu.The bigger AI challenge – governing data

Na perspetiva empresarial a utilização de Open Sources é, em muitos casos vista de forma positiva.
Uma característica valorizada é o preço. O preço de aquisição de um Open Source é muito baixo, sendo que na maioria dos casos, é inexistente. No entanto é importante diferenciar entre aquisição e manutenção.

Aquisição,
quando escolhemos o software, fazemos download, configuramos as pastas, selecionamos “packages” específicos, e já está! O software está pronto para ser utilizado.

Manutenção é diferente! Após o software estar em pleno uso, o mesmo irá requerer atualizações periódicas e verificação de compatibilidades com novas versões do sistema operacional e de web browsers. Além destas características relacionadas com a manutenção “física”, existe também a manutenção referente ao próprio conhecimento exigido para utilizar o software. Para muitas empresas o que acaba por acontecer é a criação de silos de conhecimento e lacunas no uso prático das tecnologias ao contrário de uma utilização democrática e coesa das aplicações. Ou seja, existem preços “ocultos” nos softwares gratuitos que nem sempre são considerados.

Outra característica valorizada é a flexibilidade. Realmente, o Data Scientist que desenvolve os processos analíticos ou modelos preditivos, tem muita flexibilidade e tem à sua disposição diversas “bibliotecas” para diferentes fins. Sejam, por exemplo para manipular dados, executar análises avançadas ou para se trabalhar com imagens e vídeos.

As tecnologias Open Source, como Hadoop, R e Python, têm sido vitais para a disseminação do Big Data. No entanto,  existem alguns pontos de vulnerabilidade. Por exemplo limitações na integração com sistemas de segurança corporativos.

Outro ponto a realçar  é a dificuldade no controle ou governação nos processos. Quando se tem um ou dois modelos preditivos feitos através de tecnologia Open Source, não é difícil saber quem os fez, quais os algoritmos que foram utlizados, qual foi a parametrização na seleção de variáveis ou até mesmo, quais as versões destes modelos que estão em atividade. O problema começa a surgir quando se tem dezenas de modelos. Imagine um gestor que precise de saber o que se passa com estes modelos. Modelos criados com finalidades diferentes, utilizando fontes de dados diferentes e em diferentes níveis do processo de modelação...

Outra questão é o processo de publicar ou colocar estes modelos em produção. Colocar um modelo em produção significa deixá-lo disponível para ser utilizado em algum local/device/site, como por exemplo, para uma verificação de propensão de crédito ou validação de uma oferta.

Para além disso, há que ter consciência que governar um modelo não é somente colocá-lo em produção,  mas também monitorizá-lo. Ou seja, comparar a performance ao longo do tempo;  identificar qual ou quais os modelos mais produtivos, estatisticamente, etc…  Sem uma estrutura de governo estas ações são extremamente difíceis e, na maioria dos casos, impossível.

Atenção que, em nenhum momento estou a sugerir que  os modelos analíticos feitos através de Open Source possuem uma baixa qualidade ou que não são confiáveis. O que estou a  partilhar  é que, pela minha experiência, toda esta flexibilidade inerente ao Open Source, se não tiver um método de controlo pode gerar um ambiente caótico e daí a necessidade de  ter uma Plataforma segura que o governe.
E é exatamente assim que o SAS atua.

O SAS tem uma Plataforma que tem a capacidade de envolver e “abraçar” outras tecnologias, e consegue governá-las e potencializá-las através de processos escaláveis. Click To Tweet

A Plataforma SAS disponibiliza,  naturalmente, três pontos fundamentais relacionados aos processos híbridos – Open Source e SAS: estabilidade, “deployment” e governação.

Isto foi o que eu demonstrei na minha apresentação no evento que falei no início deste artigo. Como o trabalho conjunto entre Plataforma SAS e Open Source podem potencializar estrategicamente os processos analíticos empresariais.

Aproveito para partilhar e sugerir um webinar gratuito que conta com exemplos práticos de como o SAS é usado com R e Python. "Have Your Cake and Eat It Too – With R, Python + SAS"

Tags #Road2AI
Share

About Author

Ricardo Galante

Senior Systems Engineer - Customer Advisory

Ricardo é Analytics Customer Advisor no SAS Institute sendo um dos responsável pela área de Business Advanced Analytics em Portugal em diferentes indústrias.  Profissional com mais de 20 anos de experiência no mercado na área analítica, com sólida atuação em inteligência artificial, data science e estatística. É docente convidado na Faculdade de Ciências da Universidade de Lisboa e também na Universidade Europeia e no IPAM (Instituto Português de Administração de Marketing) onde ministra cursos de Data Science. É Doutorando em Estatística na Universidade de Lisboa, Mestre e Graduado em Estatística pela Universidade Federal de São Carlos – UFSCar.

Leave A Reply

Back to Top