Matrius de confusió

Autor: Julià Minguillón

Els textos i imatges publicats en aquesta obra estan subjectes (llevat que s'indiqui el contrari) a una llicència de Reconeixement-Compartir igual (BY-SA) v.3.0 Espanya de Creative Commons. Podeu modificar l'obra, reproduirla, distribuir-la o comunicar-la públicament sempre que en citeu l'autor i la font (FUOC. Fundació per a la Universitat Oberta de Catalunya), i sempre que l'obra derivada quedi subjecta a la mateixa llicència que el material original. La llicència completa es pot consultar a http://creativecommons.org/licenses/by-sa/3.0/es/legalcode.ca

1. Cicle de vida

Anàlisi

2. Tipologia

Tècniques / mètodes / algoritmes

3. Àmbit d'aplicació

Fonaments teòrics

Descripció

Quan es fa servir un algorisme de classificació sobre un conjunt de dades, el que fem és mesurar com és de precís, mirant si la classe assignada a cada element classificat coincideix amb la real. Podem mesurar la precisió de manera senzilla mirant, per exemple, el percentatge d’elements ben classificats respecte el total.

Més formalment, si tenim un conjunt de N dades amb K>1 classes diferents, i que tenim N₁, …, N_K elements de cada classe, i construïm un classificador, aquest ens retornarà una classe per cada element, que podrà coincidir o no amb l’original. Això ho podem representar amb el que es coneix com a matriu de confusió. Suposem que K = 3:

Real/predicció	Classe 1	Classe 2	Classe 3	Total
Classe 1	N_1,1	N_1,2	N_1,3	N₁
Classe 2	N_2,1	N_2,2	N_2,3	N₂
Classe 3	N_3,1	N_3,2	N_3,3	N₃

En què N_i,j representa el nombre d’elements de la classe i classificats com a j. Un classificador perfecte ens deixaria tots els elements en la diagonal, és a dir, N_i,i=N_i i N_i,j=0 per a tot i ≠ j. Tingueu en compte que la matriu transposada continua sent una matriu de confusió, de vegades les trobareu d’una manera o altra, no us equivoqueu a l’hora d’interpretar-la!

Tal com hem comentat abans, la precisió del nostre model seria (N_1,1 + N_2,2 + N_3,3) / N, però podem definir moltes altres mesures a partir de la distribució dels N_i,j, és a dir, de com ho fa el nostre classificador.

Pel cas més comú, K = 2, la literatura defineix molts conceptes que es poden calcular a partir de la matriu de confusió, com ara l’especificitat, la sensitivitat o el que es coneix com a F1.

Enllaç al recurs

https://onlineconfusionmatrix.com/

Exemple d’ús

Suposeu que tenim un conjunt de dades sobre usuaris de Netflix, en què hi ha 900 homes i 100 dones, i a partir de certes mesures (per exemple, l’ús que fa d’un servei qualsevol, com ara quines sèries i pel·lícules veu a Netflix) un algorisme ens classifica si un usuari és un home o una dona, i ho fa amb la matriu de confusió següent:

Real/Predicció	Home	Dona	Total
Home	900	0	900
Dona	90	10	100

Podem pensar que el nostre algorisme ho fa molt bé perquè encerta 900+10 usuaris de 1.000; un 91 % de precisió, però realment ho està fent bé? Doncs per als homes sí, els encerta tots (el 100 %), però per a les dones ho fa fatal; només és capaç de classificar bé el 10 %, segurament perquè el nostre algorisme pateix d’un biaix causat per un conjunt de dades molt desequilibrat. Amb altres mesures més enllà de la simple precisió podem adonar-nos d’aquest problema i mirar de corregir-lo, i interpretar el que ens diu la matriu de confusió.

A l’assignatura de Mineria de dades, del grau de Ciència de Dades Aplicada de la UOC, haureu d’avaluar els vostres models mitjançant matrius de confusió.

Enllaços relacionats

Anàlisi de taules de contingència: https://statpages.info/ctab2x2.html

Sensitivitat i especificitat a Wikipedia: https://en.wikipedia.org/wiki/Sensitivity_and_specificity

Valor F a Wikipedia: https://en.wikipedia.org/wiki/F-score