O que são missing values?

Foto: thebaxleygroup

Dados corrompidos, falha ao carregar as informações ou extração incompleta podem gerar no mundo real valores faltando, do inglês missing values. Lidar com isso pode ser um grande desafio, identificar e contornar esse problema tende a gerar modelos de dados de Aprendizagem de Máquina (AM) confiáveis e robustos.

Pode parecer estranho, mas esse problema é bem comum. Imagine que um sensor que é responsável pela coleta de dados de temperatura de uma caldeira dentro de uma fábrica falha por qualquer circunstância em alguns momentos durante o dia. Todos os outros sensores dispostos durante todo o processo produtivo conseguiram coletar seus dados de forma apropriada e apenas o de temperatura em questão apresentou falha. Agora imagine que isso se repetiu em algumas ocasiões aleatoriamente durante o mês e apenas agora o responsável descobriu que houve falha na coleta dos dados.

O que fazer com essas medições que não foram executadas de forma apropriada?

É necessário perder todos os dados coletados durante o mês e recomeçar tudo novamente?

E se não foi uma falha no sensor e simplesmente incluímos um novo sensor. Os dados históricos de todo o processo produtivo deveriam ser descartados para inclusão de novos dados?

Fique calmo, a seguir serão apresentadas algumas forma de contornar esse problema:

  • Deletar: essa pode ser uma das formas mais simples de resolver esse problema. Essa estratégia é muito utilizada quando o problema de falta de dados ocorre em mais de 75% da linha ou coluna na base de dados. Nesses casos, excluímos a linha/amostra ou a coluna/atributo da base. Caso o número de dados faltando for pequeno, recomenda-se que não seja utilizada essa técnica para preservação da informação.
  • Média, Mediana ou maior ocorrência: voltando ao caso do sensor que mede temperatura e levando em consideração que foram poucas as falhas do mesmo, pode-se utilizar esse tipo de técnica para preencher os valores que faltam de acordo com a média/mediana das medições de um determinado período. Esse tipo de operação é bem mais suave que a deleção para modelos de dados de AM.
  • Criação de uma nova categoria: imagine que o objetivo do modelo é predizer defeitos em um produto. Desta forma, teríamos duas categorias: produtos com defeitos e sem defeitos. Essa proposta trabalha com o isolamento dos dados e criação de uma categoria para o mesmo. A falha no dado pode indicar um defeito ou não e pode ser tratada de forma diferenciada pelo modelo. Novas categorias podem ser analisadas de forma personalizada e ainda teríamos boas amostras para produtos defeituosos ou não.
  • Predizer os valores: essa técnica visa utilizar a AM para predizer valores que estão faltando. Fazendo uso do histórico de valores e diversos outros atributos que podem ser úteis, a predição de valores tenta estimar qual seria o valor que está faltando de acordo com as condições históricas e temporais na base de dados. Desta forma, não estaríamos estimando utilizando média ou deletando esses registros, preservando assim o máximo de informação coletada.

Deixe uma resposta