9 passos para uma modelagem preditiva eficaz

0

Modelos de machine learning estão cada dia mais em alta no mercado de trabalho. Mas o que são esses modelos? Por que eles ganharam tanto destaque? Por que todos querem usar?

Gosto de dizer que modelos de machine learning são modelos estatísticos acrescidos de poder computacional, e que as empresas querem usá-los pois estão aumentando seus níveis de maturidade com relação a analytics e entendendo melhor os benefícios que estes modelos podem trazer.

Para apoiar essas empresas no caminho rumo ao uso de machine learning, costumo sugerir um roadmap de 9 passos para o desenvolvimento de um modelo preditivo. É importante ressaltar, de qualquer forma, que isso não é uma receita de bolo, mas sim um direcionamento para facilitar os primeiros passos daqueles que querem construir um modelo preditivo eficaz.

1.Definição do problema
A primeira coisa que precisamos fazer é definir o problema que queremos resolver. Iniciar com perguntas pertinentes à área de negócio é um bom começo. Após definir o problema - ou seja, qual é o objetivo, resposta, dependente, target (como queira chamar) que queremos prever e o seu tipo (nominal, ordinal, contínua, binária, etc) -, precisamos também especificar a necessidade relacionada à questão que estamos tentando responder, pois isso ajuda na seleção das técnicas de modelagem mais apropriadas.

2.Captura de dados

É nessa fase que analisamos as fontes das quais poderão ser extraídos os dados, tanto a variável-resposta (target), como as variáveis independentes, ou seja, que serão utilizadas para explicar meu evento de interesse. Esses dados podem estar em diferentes formatos e vir de diferentes fontes, por isso há a necessidade de consolidação e tratamento (verificar a qualidade dos dados), para que os dados brutos possam ser usados como entrada na modelagem preditiva.
A parte de preparação está cada vez mais desafiadora devido à grande quantidade de informação que vem sendo armazenada e muito tempo é gasto aqui.

 

 

3.Amostragem

O objetivo dos modelos preditivos é a generalização, ou seja, a habilidade de prever a variável-target para novos casos. Por isso, não basta apenas ajustar um modelo, precisamos verificar se a generalização está ocorrendo de forma efetiva. Para isso podemos dividir a base de estudo em treinamento (ajustar alguns modelos), validação (verificar a qualidade dos modelos ajustados e escolher o modelo campeão) e teste (avalia o modelo campeão).
Mas porque essa divisão? Quando ajustamos um modelo nos dados de treinamento esse modelo pode ser simples ou complexo demais. Como não queremos que isso aconteça, pois afetará a previsibilidade, a ideia é encontrar um modelo que se comporta de forma parecida na base de treinamento e teste. Utilizar a mesma base para ajustar um modelo e verificar a qualidade do ajuste pode levá-lo ao princípio do otimismo, onde você acha que o modelo generaliza bem, mas ao utilizá-lo em uma base-teste verifica que isto não ocorre.

4.Exploração
Aqui é onde abrangemos tanto a parte da estatística descritiva como a diagnóstica, ou seja, exploramos os dados procurando tendências ou anomalias inesperadas para obter uma melhor compreensão e assim entender o que, e por que, aconteceu. Precisamos saber com o que estamos trabalhando. Verificar as distribuições das variáveis que pretendemos usar e as relações bivariadas entre todas as variáveis que podem entrar no modelo é uma maneira de começar.

5.Transformação

Ao examinar os dados, na fase de exploração, você pode encontrar a necessidade de criar, transformar, excluir ou combinar variáveis a fim de construir o modelo.
Esta etapa é considerada uma das mais demoradas. Por isso, ter um direcionamento pode facilitar o processo. Seguem alguns passos que podem ser realizados:
• Tratamento de missing (valores faltantes)
• Agrupamento dos níveis para variáveis categóricas
• Criação de variáveis secundárias, ou seja, derivadas das variáveis originais, como por exemplo: consolidado dos últimos 3 meses de vendas, se ocorreu ou não uma promoção nos últimos 12 meses.
• Exclusão de variáveis redundantes (variáveis independentes altamente correlacionadas) e irrelevantes (variável independente com baixa correlação com a resposta, ou seja, não contribui para sua previsão).

6.Seleção

Após a realização de todos os tratamentos necessários chegou o momento de selecionar as variáveis que serão utilizadas na construção do modelo final. Os métodos mais conhecidos para esta fase são:

  • Forward (variável entrou não sai mais): Começamos a construção do modelo sem nenhuma variável. Em cada um dos passos seguintes a variável selecionada é a que aumenta a explicabilidade do modelo. Esse processo é finalizado quando nenhuma das variáveis restantes for significativa.
  • Backward (variável saiu não entra mais): O processo de construção do modelo se inicia com a inclusão de todas as variáveis. A cada passo a variável menos significante é removida e assim por diante até que nenhuma variável não significativa permaneça.
  • Stepwise (variável pode entrar e sair a qualquer momento): É uma combinação das técnicas forward e backward.

7.Modelagem

Enfim, o passo mais esperado. Todo esse trabalho de preparação até aqui faz com que este passo seja mais “simples”. Com base no tipo da variável resposta e no seu objetivo, definidos no primeiro passo, escolhemos algumas técnicas de modelagem para ajustar modelos na base de treinamento. Conforme quadro a seguir.

8.Avaliação
Após ajustar os vários modelos na base de treinamento, precisamos definir qual será o modelo final utilizado para fazer as futuras previsões. Para isso, conforme discutido no tópico de amostragem, é necessário escolher uma métrica de ajuste e comparar o resultado de todos os modelos na base de validação. O modelo com a melhor estatística, na base de validação, é escolhido como o modelo campeão. A base de teste é utilizada para verificar a consistência do modelo escolhido como campeão, como se fossemos prever o que aconteceria se colocássemos o modelo em produção.

9.Produção
Após colocar o modelo em produção, devemos monitorá-lo em intervalos de tempo recorrentes para identificar se a performance está sendo mantida. Se for identificada a perda de performance, o modelo deverá ser atualizado para que continue a produzir os resultados desejados. A ideia é criar um loop contínuo de aprendizado o que torna o processo um ciclo - conhecido como ciclo analítico, como podemos ver na figura a seguir.

Espero ter colaborado um pouco para esclarecer algumas ideias com relação aos passos que devem ser seguidos para construir um modelo analítico.

Tags
Share

About Author

Cristiane Rodrigues

Customer Advisory, SAS Advanced Analytics

Cristiane Rodrigues é bacharel em Matemática pela UNESP e mestre em estatística pela USP, com 9 anos de experiência em modelagem de dados. Atualmente, é responsável por Advanced Analytics na área de Customer Advisory do SAS, além de ser professora em cursos de ciência de dados. Ao longo de sua experiência profissional, já trabalhou na modelagem de crédito do Bradesco, com forecast e dimensionamento na Atento e como consultora analítica no SAS.

Leave A Reply

Back to Top