Descripció
Quan es fa servir un algorisme de classificació sobre un conjunt de dades, el que fem és mesurar com és de precís, mirant si la classe assignada a cada element classificat coincideix amb la real. Podem mesurar la precisió de manera senzilla mirant, per exemple, el percentatge d’elements ben classificats respecte el total.
Més formalment, si tenim un conjunt de N dades amb K>1 classes diferents, i que tenim N1, …, NK elements de cada classe, i construïm un classificador, aquest ens retornarà una classe per cada element, que podrà coincidir o no amb l’original. Això ho podem representar amb el que es coneix com a matriu de confusió. Suposem que K = 3:
Real/predicció | Classe 1 | Classe 2 | Classe 3 | Total |
Classe 1 | N1,1 | N1,2 | N1,3 | N1 |
Classe 2 | N2,1 | N2,2 | N2,3 | N2 |
Classe 3 | N3,1 | N3,2 | N3,3 | N3 |
En què Ni,j representa el nombre d’elements de la classe i classificats com a j. Un classificador perfecte ens deixaria tots els elements en la diagonal, és a dir, Ni,i=Ni i Ni,j=0 per a tot i ≠ j. Tingueu en compte que la matriu transposada continua sent una matriu de confusió, de vegades les trobareu d’una manera o altra, no us equivoqueu a l’hora d’interpretar-la!
Tal com hem comentat abans, la precisió del nostre model seria (N1,1 + N2,2 + N3,3) / N, però podem definir moltes altres mesures a partir de la distribució dels Ni,j, és a dir, de com ho fa el nostre classificador.
Pel cas més comú, K = 2, la literatura defineix molts conceptes que es poden calcular a partir de la matriu de confusió, com ara l’especificitat, la sensitivitat o el que es coneix com a F1.
Enllaç al recurs
https://onlineconfusionmatrix.com/
Exemple d’ús
Suposeu que tenim un conjunt de dades sobre usuaris de Netflix, en què hi ha 900 homes i 100 dones, i a partir de certes mesures (per exemple, l’ús que fa d’un servei qualsevol, com ara quines sèries i pel·lícules veu a Netflix) un algorisme ens classifica si un usuari és un home o una dona, i ho fa amb la matriu de confusió següent:
Real/Predicció | Home | Dona | Total |
Home | 900 | 0 | 900 |
Dona | 90 | 10 | 100 |
Podem pensar que el nostre algorisme ho fa molt bé perquè encerta 900+10 usuaris de 1.000; un 91 % de precisió, però realment ho està fent bé? Doncs per als homes sí, els encerta tots (el 100 %), però per a les dones ho fa fatal; només és capaç de classificar bé el 10 %, segurament perquè el nostre algorisme pateix d’un biaix causat per un conjunt de dades molt desequilibrat. Amb altres mesures més enllà de la simple precisió podem adonar-nos d’aquest problema i mirar de corregir-lo, i interpretar el que ens diu la matriu de confusió.
A l’assignatura de Mineria de dades, del grau de Ciència de Dades Aplicada de la UOC, haureu d’avaluar els vostres models mitjançant matrius de confusió.
Enllaços relacionats
Anàlisi de taules de contingència: https://statpages.info/ctab2x2.html
Sensitivitat i especificitat a Wikipedia: https://en.wikipedia.org/wiki/Sensitivity_and_specificity
Valor F a Wikipedia: https://en.wikipedia.org/wiki/F-score