Descripció
En aquest fil de tuits, Maarten van Smeden fa un repàs a alguns dels principis que més preocupen els científics de dades quan analitzen els resultats d’un experiment, n’explica la importància real i dona consells per als casos en què aquests principis no es compleixen en la seva totalitat. És a dir, molts cops un experiment que no satisfà uns certs principis considerats bàsics pot estar proporcionant-nos informació rellevant sobre el problema que estem analitzant. Per a cada principi, l’autor proporciona un article en què es desenvolupa el concepte de manera detallada.
Els principis que hom suposa que cal vigilar en una anàlisi estadística «ideal» són els següents:
- La significança de les associacions d’una sola variable. Molts cops, abans de procedir amb l’anàlisi multivariant, es fa una anàlisi bivariant i es busquen relacions entre les variables independents i la dependent. Això pot portar a pensar a incloure en el model multivariant només les variables que tenen una certa relació, cosa que ens pot fer descartar altres variables que poden ser rellevants quan es combinen entre si o amb d’altres. L’autor ens recomana, simplement, no fer aquesta anàlisi bivariant prèvia si l’objectiu és seleccionar variables.
- La significança dels tests d’ajust del model (goodness of fit). No hi ha models «perfectes», tots els models són aproximacions, així doncs, la qüestió és quanta imperfecció podem acceptar en el nostre model. Com detallen diferents autors, el nivell de calibració d’un model depèn del seu ús posterior, i alguns tests habituals com el de Holmes-Lemeshow són ineficaços.
- El desequilibri en les dades obtingudes en mostrejos aleatoris. Quan es fa una enquesta a una població i se’n selecciona una mostra, hauria de ser com més representativa millor de la població, per evitar els biaixos típics que apareixen respecte a grups sotarepresentats o sobrerepresentats. Per això, s’acostumen a dissenyar estrats de població en una dimensió o més per assegurar un mínim de respostes en cada estrat, d’acord amb les variables que es consideren importants per a l’estudi que s’està fent. Més que preocupar-se pels estrats, el que ens diu l’autor és que l’important és que la mostra sigui realment aleatòria.
- La manca de normalitat en les observacions. Molts cops la suposada normalitat de les dades no es compleix, fet que posa en qüestió la validesa de molts tests estadístics i altres tècniques que la tenen com a premissa. És més adequat analitzar la normalitat dels residus d’un model per veure que no incorpora un biaix considerable.
- La multicolinearitat. Com diu l’autor, és segurament un dels principis més sobrevalorats, quan realment té una importància relativa. Com comenta l’autor, tot i que la multicolinearitat pot causar problemes amb els coeficients del model que presenten aquesta colinearitat, no passa amb la resta de variables ni amb la predicció.
A l’assignatura Anàlisi multivariant, del grau de Ciència de Dades Aplicada de la UOC, practicareu amb alguns d’aquests conceptes.
Enllaç al recurs
https://threadreaderapp.com/thread/1373189746176970753.html
Enllaços relacionats
Anàlisi bivariant: https://en.wikipedia.org/wiki/Bivariate_analysis
Test de Hosmer-Lemeshow: https://en.wikipedia.org/wiki/Hosmer-Lemeshow_test
Aleatorització: https://en.wikipedia.org/wiki/Randomization
Test de normalitat: https://en.wikipedia.org/wiki/Normality_test
Multicolinearitat: https://en.wikipedia.org/wiki/Multicollinearity