p-hacking

Autor: Julià Minguillón

Los textos e imágenes publicados en esta obra están sujetos (excepto que se indique lo contrario) a una licencia de Reconocimiento-Compartir igual (BY-SA) v.3.0 España de Creative Commons. Se puede modificar la obra, reproducirla, distribuirla o comunicarla públicamente siempre que se cite el autor y la fuente (FUOC. Fundació per a la Universitat Oberta de Catalunya), y siempre que la obra derivada quede sujeta a la misma licencia que el material original. La licencia completa se puede consultar en: http://creativecommons.org/licenses/by-sa/3.0/es/legalcode.es

1. Ciclo de vida

Descripción

El concepto p-hacking, o más generalmente data dredging, es el producto de manipular los datos y los modelos para obtener un resultado estadísticamente significativo cuando, en realidad, no existe. La siguiente cita de John W. Tukey, matemático estadístico de renombre, lo describe con otras palabras:

«The data may not contain the answer. And, if you torture the data long enough, it will tell you anything».

Es decir, manipulando los datos adecuadamente podemos conseguir que nos digan lo que estamos buscando, sea cierto o no. Hay muchas maneras de hacerlo: dejando a un lado datos (registros o variables) que no son favorables para nuestros objetivos, repitiendo experimentos con un componente aleatorio hasta que uno nos parece adecuado, ajustando nuestra hipótesis o la variable objetivo a lo que observamos, etc. Estas prácticas son desgraciadamente una realidad en la literatura científica, ya sea de manera consciente o inconsciente.

Enlace al recurso

https://en.wikipedia.org/wiki/Data_dredging

Ejemplo de uso

El principal problema de hacer p-hacking es que los experimentos publicados en la literatura científica se convierten en irreproducibles, en el sentido que no es posible para otro equipo de investigación obtener resultados comparables. Ello se debe a la falta de detalles en el diseño de los experimentos y en la recogida de los datos, en la presencia de parámetros desconocidos, etc. La presión para publicar y la facilidad para manipular datos y modelos pueden empujar a algunos investigadores a traspasar los límites de lo que se considera ético.

Si, por ejemplo, tenemos una encuesta que nos relaciona el género con un hábito, como por ejemplo fumar, con un valor de p = 0,051, podríamos eliminar algún individuo de la encuesta (por alguna razón «válida», si lo tratamos como un outlier) hasta obtener una p = 0,049 y entonces podremos decir que lo que hemos encontrado es estadísticamente significativo.

En la asignatura Probabilidad y estadística aprenderéis a usar los valores p para validar o refutar hipótesis y veréis cómo, a veces, las decisiones que se toman según estos valores son muy ajustadas.

Enlaces relacionados

John W. Tukey en Wikipedia: https://en.wikipedia.org/wiki/John_Tukey

xkcd Significant: https://www.explainxkcd.com/wiki/index.php/882:_Significant

Presencia de p-hacking en la investigación académica: https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002106