Descripció
El concepte de p-hacking, o més generalment data dredging, és el resultat de manipular les dades i els models per obtenir un resultat estadísticament significatiu quan, en realitat, no existeix. La cita següent de John W. Tukey, un matemàtic estadístic de renom, ho descriu amb altres paraules:
«The data may not contain the answer. And, if you torture the data long enough, it will tell you anything».
És a dir, manipulant les dades adequadament podem fer que ens diguin allò que estem buscant, sigui cert o no. Hi ha moltes maneres de fer-ho, deixant de banda dades (registres o variables) que no ens són favorables per als nostres objectius, repetint experiments amb un component aleatori fins que un ens sembla adequat, ajustant la nostra hipòtesi o la variable objectiu al que observem, etc. Aquestes pràctiques són malauradament una realitat en la literatura científica, ja sigui de manera conscient o inconscient.
Enllaç al recurs
https://en.wikipedia.org/wiki/Data_dredging
Exemple d’ús
El principal problema de fer p-hacking és que els experiments publicats en la literatura científica esdevenen irreproduïbles, en el sentit que no és possible per a un altre equip de recerca obtenir resultats comparables. Això és a causa de la manca de detalls en el disseny dels experiments i la recollida de les dades, la presència de paràmetres desconeguts, etc. La pressió per publicar i la facilitat per manipular dades i models pot empènyer alguns investigadors a traspassar els límits del que es considera ètic.
Si, per exemple, tenim una enquesta que ens relaciona el gènere amb un hàbit com ara fumar amb un valor de p = 0.051, podríem eliminar algun individu de l’enquesta (per alguna raó «vàlida», si el tractem com un outlier) fins a obtenir una p = 0.049 i aleshores poder dir que el que hem trobat és estadísticament significatiu.
A l’assignatura Probabilitat i estadística aprendreu a fer servir els valors p per a validar o refutar hipòtesis i veureu com, de vegades, les decisions que es prenen d’acord amb els valors p són molt ajustades.
Enllaços relacionats
John W. Tukey a Wikipedia: https://en.wikipedia.org/wiki/John_Tukey
xkcd Significant: https://www.explainxkcd.com/wiki/index.php/882:_Significant
Presència de p-hacking a la recerca acadèmica: https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002106