Coletar dados e integrar é o bastante?

Foto: i-SCOOP

A coleta de dados por mais que seja bem feita pode gerar dados imperfeitos, problema que a fase de integração pode não resolver. Algoritmos de Aprendizagem de Máquina (AM) são sensíveis, a falta de qualidade na coleta pode levar a decisões ruins. Após coletar dados, faz-se necessário realizar uma etapa chamada de pré-processamento que consiste na preparação dos dados para a AM. Esse processo visa:

  • Especificar o problema: nem todos os dados coletados são úteis para resolver determinados problemas. A especificação visa deixar a base de dados mais objetiva para o problema que se deseja resolver. Sendo assim, dados que não interferem nas decisões não devem ser utilizados. Sem isso, a solução criada pode ficar sobrecarregada ou até mesmo levar a decisões incorretas por utilizar dados que não possuem nenhuma relação com o processo a ser melhorado. Aconselha-se que a especificação seja feita com o auxílio de especialistas no domínio para tornar os dados, e consequentemente modelos de predição da AM, mais objetivos.
  • Garantir a qualidade dos dados: um problema bastante encontrado na AM é a falta de dados, do inglês missing values. Falhas ou mudanças no processo de coleta podem provocar a falta de alguns dados que são importantes para a criação do modelo de AM de um determinado negócio. Algumas técnicas podem ser utilizadas para minimizar esse problemas, tais como: preenchimento com a maior ocorrência, média ou mediana de valores presentes, deleção de todos os dados desse tipo, predição através de algoritmos e outros dados dos dados faltantes.
  • Transformar os dados: muitas vezes um dado coletado necessita de uma conversão, normalização ou até mesmo transformação para que sejam bem entendidos por algoritmos de AM. Esse processo pode ser custoso computacionalmente e deve ser feito com cuidado para que as características principais dos dados sejam preservadas.
  • Realizar limpezas: falhas podem acontecer durante o processo de coleta que podem ser detectadas no pré-processamento. Em algum momento, equipamentos que coletam informações podem falhar produzindo dados inválidos ou distorcidos.

Deixe uma resposta