Medidas de Avaliação de Desempenho na Aprendizagem de Máquina

Foto: IBM

Em posts anteriores foram apresentadas técnicas de treinamento e validação na Aprendizagem de Máquina. Para mensurar a qualidade do treinamento na AM utilizamos algumas medidas de avaliação de desempenho. Imagine que foi criado um modelo utilizando AM que é responsável por definir se um produto está apto para ser comercializado. O treinamento desse modelo   em questão provavelmente será feito com algumas amostras de produtos, previamente etiquetadas de acordo com a presença ou não de defeitos, para que seja capaz de identificar produtos defeituosos e/ou fora dos padrões.

A análise da qualidade de um produto depende muito de sua complexidade, quanto mais atributos e funcionalidades maiores deverão ser os critérios utilizados. Para tal, diversas medidas de avaliação foram criadas para auxiliar nessa tomada de decisão.

 

Acurácia

A acurácia é uma das métricas mais simples que verifica a porcentagem de acerto de um classificador. Se de 100 amostras de produtos um classificador conseguir classificar corretamente 80 produtos, teremos uma acurácia de 80%.

 

Matriz de Confusão

Também conhecida como matriz de erro ou tabela de contingência, a matriz de confusão é uma tabela que permite a visualização do desempenho de um algoritmo de aprendizagem de máquina sob vários aspectos. São dispostas as previsões e os valores reais em linhas e colunas e a partir disso é possível extrair alguns valores, tais como:

 

                    Valor Real ->

Predição

Bom

Ruim

Total

Bom

20 ou VP

30 ou FP

50

Ruim

15 ou FN

25 ou VN

40

Total

35

55

90

 

  • Verdadeiros Positivos (VP): apresenta a quantidade de produtos em perfeito estado que são classificados como tal.
  • Falsos Positivos (FP): produtos classificados como sem defeito quando possuem algum, para esse tipo de classificação pode deixar passar produtos que não deveriam ir para o mercado. No nosso exemplo 30 produtos de um total de 90 estariam enquadrados nessa situação
  • Falsos Negativos (FN): tendo em vista que a classificação positiva é quando o produto está em bom estado, um falso negativo elege um produto como defeituoso quando o mesmo está em perfeito estado.
  • Verdadeiros negativos: aqui encontra-se a quantidade de produtos com defeito classificados corretamente com defeituosos.

 

Verdadeiros positivos e verdadeiros negativos podem ser utilizados para extrair a acurácia. Ou seja, apenas é analisado onde o classificador acertou. Entretanto, para alguns casos, a classificação incorreta, seja ela negativa ou positiva, pode ser um fator tão decisivo quanto os acertos. Um falso positivo afirma que o produto não tem defeito quando o mesmo tem, ficar atento a resultados desse tipo pode ser tão importante quanto mensurar apenas a acurácia de um algoritmo.

 

Precisão:

A precisão tem como objetivo identificar a porcentagem das amostras foi classificada positivamente. Ou seja, quantas amostras de produtos aptas para comercialização foram classificadas de forma correta em relação ao número de falsos positivos. Utilizando a nossa Tabela da matriz de confusão, a Precisão seria:

[20(VP)] / [20(VP)+30(FP)]= 40%

Ou seja teríamos uma precisão de 40% tendo em vista o grande número de falsos positivos encontrados.

 

Cobertura

A cobertura, também conhecida como taxa de verdadeiro positivo ou taxa de sensibilidade, é semelhante a precisão só que para as amostras falsas negativas. Ou seja, verifica-se o quão completo é um classificador. Caso tenha um modelo de AM possua uma baixa cobertura, entende-se que existe um grande número de falsos positivos. Para o nosso exemplo a cobertura seria:

[20(VP)]/[20(VP)+15(FN)] = 57%

Portanto, o grande número de falsos positivos influenciou diretamente na cobertura do modelo.

 

O objetivo das medidas de avaliação é detalhar o desempenho do algoritmo indicando quando ajustes devem ser feitos no modelo ou alertar para a necessidade de novos dados para treinamento. As medidas devem ser exploradas e analisadas de acordo com o domínio que está sendo aplicada a AM. Para alguns casos, pode ser tolerável que algumas medidas não possuam valores excelentes. Particularmente na predição de defeitos em produtos, os falsos positivos podem ser muito críticos por entregar ao cliente um produto de baixa qualidade.

Deixe uma resposta