Desbalanceamento na Aprendizagem de Máquina

Foto: Mary Ann Candelario, Esq.

No aprendizado supervisionado, quando se tem amostras etiquetadas e se deseja utilizar um modelo de Aprendizagem de Máquina (AM) para predizer novas etiquetas, o uso de algoritmos durante a fase de treinamento em  base de dados desbalanceadas pode gerar resultados insatisfatórios. O desbalanceamento se dá pela presença de mais amostras com determinadas etiquetas que de outras. Em decorrência disso, o modelo de AM tende a ser bem mais eficiente na classificação de classes com maior representatividade. Entretanto, muitas vezes as classes minoritárias são mais críticas e importantes para determinados negócios.

Esse tipo de problema tem sido bastante encontrado nos últimos anos em diversos domínios, tais como: na deteção de fraude em cartões de crédito, monitoramento e diagnóstico médico, predição de clientes inadimplentes, deteção de defeitos em produtos e outros. Diversas estratégias podem ser utilizadas para tentar amenizar esse problema, as mais tradicionais são:

 

  • Criação de novas instâncias artificiais: é uma das técnicas mais simples que tenta criar novos dados da classe menos representativa, o objetivo é que tenhamos quantidades equilibradas de dados de cada classe. Apesar de parecer ser uma boa solução, esse processo pode gerar muitos ruídos nos dados por inserir amostras que foram criadas sinteticamente e, portanto, podem não representar de fato as classes minoritárias.

 

  • Reamostragem: essa estratégia em vez de criar novas instâncias artificiais tenta criar novos conjuntos de dados balanceados a partir dos dados originais. A partir disso, é possível treinar modelos a partir de cada subconjunto com dados reais e utilizar os novos modelos para predizer etiquetas no futuro.

Deixe uma resposta