A importância da Integração de dados para a aprendizagem de máquina

Foto: syntax-solution.de

Quando se deseja aplicar Aprendizagem de Máquina (AM) em uma organização uma das primeiras fases que deve ser seguida é a coleta de dados. A coleta permite que dados de diversas fontes, sistemas, bancos de dados ou até mesmo de dispositivos da Internet das Coisas sejam coletados para a criação de modelos que fazem uso da AM.

Após isso, deve-se preparar os dados coletados para que se possa de fato utilizar a AM, estamos falando da fase de integração de dados. Nesta, vários processos de transformação, consolidação, limpeza e normalização são aplicados nos dados.  Diversos desafios podem estar escondidos nessa fase, desde a diversidade de tipos de dados, locais de armazenamento ou até mesmo tecnologias para acesso que podem existir em uma organização fazem dessa uma fase crítica e pode exigir muito das habilidades dos desenvolvedores.

Um dos grandes desafios pode ser integrar dados novos e antigos, novas tecnologias que possibilitam a criação de dados em tempo real e de diversos tipos devem estar alinhadas com os dados legados que uma organização possui. Além disso, esses dados podem ser criados em diversas fontes que utilizam múltiplas formas e formatos de armazenamento de dados. A integração de todos esses dados pode se dar de duas formas:

  • Virtualmente: onde se faz uma consulta e uma camada de integração se encarrega de buscar os dados de diversas fontes para retornar tudo consolidado. Neste caso se tem um custo computacional para processar múltiplas consultas de forma atômica e retornar apenas um resultado. A grande vantagem é que os dados devem estar sempre atualizados porque a consulta é feita em tempo real em cada base específica.
  • Materializada: neste os dados são consolidados em grandes repositórios de dados. Vários pontos de integração podem ser criados em cada fonte de dados e a partir daí pode ser definida uma agenda para atualização de dados frequentemente. A grande vantagem é que existe apenas um ponto de acesso aos dados e todas as consultas tendem a ser mais rápidas. Entretanto, essa fase de alimentação dessa base de dados centralizada não garante que os dados estarão sempre atualizados.

A integração dos dados será mais fácil quando existirem pontos fixos de coleta de dados. Estes pontos podem ser bancos de dados, dados na nuvem ou até mesmo de outros sistemas legados. Deve-se ficar atendo para que os pontos de acesso não mudem com frequência para que seja viável a manutenção da arquitetura de integração.

As fases de coleta e integração de dados são críticas para um bom desempenho de um modelo de AM. Dados confiáveis e atualizados possibilitam a aplicação de AM com mais precisão e segurança.

Deixe uma resposta