Bons resultados na fase de treinamento são suficientes?

Foto: AI Odyssey

Na Aprendizagem de Máquina (AM) várias técnicas de validação e de medidas de desempenho podem ser utilizadas para que seja verificada a qualidade do modelo treinado. Além do problema da falta de balanceamento dos dados discutido aqui anteriormente, outros problemas podem afetar a performance da AM.

Muitas vezes, repetidamente o mesmo conjunto de dados é submetido ao treinamento e testes por diversos algoritmos até que o resultado seja satisfatório. Logo em seguida, o mesmo é utilizado em ambiente de produção e nunca mais alimenta-se o modelo com novos dados. Cuidado!

As métricas de avaliação de performance podem até apresentar sempre bons resultados de precisão, cobertura acurácia e outros, mas isso não quer dizer que o modelo sempre apresentará o mesmo desempenho quando for aplicado em novos dados. Na AM, chamamos esse problema de Overfitting, ou sobreajuste. Trata-se de uma generalização feita por algoritmos de AM quando o aprendizado é feito a partir de particularidades do conjunto de dados de treinamento que são equivocadamente estendidas para o ambiente de produção.

Ou seja, o modelo de AM ajusta-se muito bem ao conjunto de dados previamente observado e apresenta dificuldade para predizer em novos dados. Esse problema faz com que a precisão do treinamento seja excelente com um conjunto de dados de treinamento, o que não condiz com a realidade.

Algumas técnicas podem ser utilizadas para minimizar esse problema:

  • Normalização: são feitas operações nos dados para tentar padronizar-los a partir de escalas previamente definidas. Tal operação diminui as discrepâncias entre valores e deixa os modelos de AM mais estáveis e menos sensíveis a valores discrepantes.
  • Validação cruzada: várias divisões no conjunto de dados de treinamento são feitas para que se tenha vários treinamentos e testes.
  • Remoção de ruídos nos dados: além da normalização, pode-se remover dados que são muito discrepantes e que podem ter sido criados a partir de falhas na coleta ou manuseio dos dados na fase de coleta.

Portanto, modelos de AM devem ser constantemente avaliados e treinados para que seja aprimorada sua performance. Novos dados podem ser criados a todo tempo em diversos negócios e a readequação do modelo com novas realidades pode ser decisivo na tomada de decisão de forma correta.

 

Deixe uma resposta