medidas de desempenho classificação supervisionada

MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA

Matriz de Confusão

• A matriz de confusão de uma hipótese h oferece uma medida efetiva do modelo de classificação, ao mostrar o número de classificações corretas versus as classificações preditas para cada classe, sobre um conjunto de exemplos T

• O número de acertos, para cada classe, se localiza na diagonal principal M(Ci,Ci) da matriz

• Os demais elementos M(Ci,Cj), para i ≠ j, representam erros na classificação

• A matriz de confusão de um classificador ideal possui todos esses elementos iguais a zero uma vez que ele não comete erros

Medidas de Desemepenho

• Acurácia: porcentagem de amostras positivas e negativas classificadas corretamente sobre a soma de amostras positivas e negativas

FNFPTNTP

TNTPAccuracy

Estimação da taxa de erro (ou de acerto = Acuracia)• Holdout - 2/3 treinamento, 1/3 teste• Validação cruzada (k-fold)

• K conjuntos exclusivos e exaustivos• O algoritmo é executado k vezes

• Bootstrap• Com reposição de amostras

Desbalanceamento de Classes• Suponha um conjunto de amostras com a seguinte

distribuição de classes • dist(C1, C2, C3) = (99.00%, 0.25%, 0.75%)

• Um classificador simples que classifique sempre novos exemplos como pertencentes à classe majoritária C1 teria uma precisão de 99,00%

• Isto pode ser indesejável quando as classes minoritárias são aquelas que possuem informação importante. Por exemplo:• C1: paciente normal, • C2: paciente com doença A • C3: paciente com doença B

Desbalanceamento de Classes

Exemplo :

C1 = pacientes com câncer (4 pacientes)

C2 = pacientes saudáveis (500 pacientes)

acc(M) = 90%• Classificou corretamente 454 pacientes que não tem câncer• Não acertou nenhum dos que tem câncer

Pode ser considerado um “bom classificador”?

Desbalanceamento de Classes• Quando se trabalha com classes desbalanceadas é

desejável utilizar uma medida de desempenho diferente da precisão

• A maioria dos sistemas de aprendizado é projetada para otimizar a precisão. Estes classificadores apresentam um desempenho ruim se o conjunto de treinamento encontra-se fortemente desbalanceado,

• Algumas técnicas foram desenvolvidas para lidar com esse problema, tais como a introdução de custos de classificação incorreta, a remoção de amostras redundantes ou prejudiciais ou ainda a detecção de exemplos de borda e com ruído

Medidas de Desemepenho• Sensitividade (Recall): porcentagem de amostras positivas

classificadas corretamente sobre o total de amostras positivas

• Precisão: porcentagem de amostras positivas classificadas corretamente sobre o total de amostras classificadas como positivas

• Especificidade: porcentagem de amostras negativas identificadas corretamente sobre o total de amostras negativas

TPPrecision

Medidas de Desempenho• F-measure também chamada F-score. É uma média

ponderada de precisão e recall

Recall)(Precision

Recall)(Precision2F

Curva ROC• ROC = Receiver Operating Characteristic Curve • Enfoque gráfico que mostra um trade-off entre as taxas de TP

(TPR) e FP (FPR) de um classificador.

• TPR = TP/(TP + FN) ( = recall) = Porcentagem de amostras corretamente classificadas como positivas dentre todas as

positivas reais

• FPR = FP/(TN + FP)Porcentagem de amostras erroneamente classificadas como positivas dentre todas as negativas reais

• Ideal : TPR = 1 e FPR = 0

Exemplo

Test Result

Pts Pts with with diseasdiseasee

Pts Pts without without the the diseasedisease

Test Result

Call these patients “negative” Call these patients “positive”

Limiar

Test Result

without the disease

with the disease

True Positives

Test Result

False Positives

Test Result

True negatives

Test Result

False negatives

Test Result

‘‘‘‘-- ’’’’ ‘‘‘‘++ ’’’’

Movendo o Limiar para a direita

Test Result

‘‘‘‘-- ’’’’ ‘‘‘‘++ ’’’’

Movendo o Limiar para a esquerda

Curva ROC

tive R

False Positive Rate (1-specificity)

Curva ROC• Cada ponto na curva corresponde a um dos modelos induzidos

pelo classificador• Um bom modelo deve estar localizado próximo do ponto (0,1)• Modelos localizados na diagonal são modelos aleatórios

• TPR = FPR

• Modelos localizados acima da diagonal são melhores do que modelos abaixo da diagonal.

False Positive Rate0%

A good test: A poor test:

Comparação curvas ROC

Comparando performance relativas de diferentes classificadores• Curvas Roc são utilizadas para se medir a performance relativa

de diferentes classificadores.

Até aqui M2 é melhor do que M1A partir daí, M1 fica melhor do que M2

Análise da curva ROC• Ponto (0,1) é o classificador perfeito: classifica todas as

amostras positivas e negativas corretamente. FPR=0 e TPR=1.

• O ponto (0,0) representa um classificador que classifica todas as amostras como negativas, enquanto o ponto (1,1) corresponde a um classificador que classifica todas as amostras como positivas.

• O ponto (1,0) é o classificador que classifica incorretamente todas as amostras.

• Em muitos casos, os classificadores possuem um parâmetro que pode ser ajustado para aumentar TP aumentando também FP. Cada parâmetro fornece um par (FP, TP). Um classificador não-paramétrico é representado por um único ponto na curva ROC.

Best Test: Worst test:T

False Positive Rate

The distributions don’t overlap at all

The distributions overlap completely

Extremos da curva ROC

Area abaixo da curva ROC (AUC)• A área abaixo da curva ROC fornece medida para comparar

performances de classificadores.• Quanto maior a área AUC melhor a performance global do

classificador.• Classificador optimal: área =1 • Classificador randômico : área = 0.5

False Positive Rate

AUC = 50%

AUC = 90% AUC =

AUC = 100%

False Positive Rate

AUC para diferentes curvas ROC

Referências• P-N Tan et al. Introduction to Data Mining – Capitulo 5, seção

5.7• Jesse Davis, Mark Goadrich - The Relationship between

Precision-Recall and ROC Curves. Proc. 23rd Int. Conf. On Machine Learning. 2006.

• Gary M. Weiss. Mining with Rarity: A Unifying Framework. SIGKDD Explorations, Vol. 6, Issue 1, 2007.

• Software: AUCCalculator 0.2

A Java program for finding AUC-ROC and AUC-PR

http://www.cs.wisc.edu/~richm/programs/AUC/

medidas de desempenho classificação supervisionada

Documents

gestão de desempenho 2018 - 2019€¦ · régua...

desempenho da classificação supervisionada em diferentes...

mg entre 2003 e 2008 através da classificação...

classificação supervisionada e não supervisionada do...

metodologias de classificação supervisionada para análise...

modelo referencial para anÁlise de desempenho ambiental de...

classificação não supervisionada - kohonen

classificação de desempenho método gut - estruturas...

1 avaliaÇÃo externa do desempenho docente dimensÃo...

avaliaÇÃo externa do desempenho docente classificaÇÃo...

glassecviracon · 2015. 8. 4. · norma de classificação...

introdução à mineração de dados com aplicações em...

classificaÇÃo da funÇÃo motora e do desempenho...

prática supervisionada [modo de compatibilidade]

classificação por desempenho laura ibp 2014

método de classificação não supervisionada por...

relatÓrio final da prÁtica de ensino supervisionada · a...

classificação supervisionada arcgis 9.3

classificação de imagens não supervisionada - kmeans e...

aprendizagem supervisionada ii