Descripción
Esta presentación de Lucy D’Agostino McGowan sobre los p-valores hace un repaso por diferentes artículos académicos en los que se discute el uso de los p-valores en la investigación, así como los problemas asociados.
Básicamente, cuando uno lleva a cabo un experimento para validar o refutar una hipótesis observando (midiendo) algo, lo que se calcula es la probabilidad de obtener un valor extremo superior al observado, de manera que para valores muy pequeños de p sea plausible pensar que la observación no se ha hecho por azar (porque es muy improbable), sino porque realmente hay alguna razón que genera los valores extremos. Es decir, si tenemos una distribución normal, obtener valores por encima de +/- 3 sigma es muy improbable y solo pasa un 0,03 % de las veces por azar. Si nuestra hipótesis es que nuestros datos siguen una distribución normal y, en cambio, observamos muchos valores extremos, entonces podremos pensar que posiblemente nuestra hipótesis de normalidad es falsa, pero deberemos comprobarlo con un test estadístico que usará un p-valor para indicar lo «improbable» que es lo que estamos observando respecto a la hipótesis inicial.
En la presentación, la autora se pregunta por qué se usa un umbral de p = 0,05 en las escuelas para explicar los test de significancia estadística, y la respuesta es porque en la literatura se utiliza este umbral. Sin embargo, ¿por qué se emplea p = 0,05? Porque es lo que se ha aprendido en la escuela, y así se cierra el círculo. La autora proporciona razones para romper este círculo y tratar de usar los p-valores teniendo en cuenta nuestra realidad actual, con datos masivos, ya sea aplicando correcciones, utilizando intervalos de confianza o incluso dejando de lado los p-valores para refutar o validar hipótesis.
Enlace al recurso
https://www.lucymcgowan.com/talk/north_carolina_translational_and_clinical_sciences_institute/
Ejemplo de uso
Supongamos que tenemos una moneda y la lanzamos para ver si está trucada o no, es decir, si cae más por un lado que por el otro. Nuestra hipótesis nula sería que la moneda no está trucada; entonces, la lanzaremos N veces y miraremos si el número de caras y de cruces obtenidas está equilibrado, y, si no es así, refutaremos la hipótesis de moneda no trucada y podremos decir que sí que lo está.
Si, por ejemplo, en 20 lanzamientos obtenemos 14 caras o más (o 14 cruces o más; a efectos prácticos para saber si la moneda está trucada o no es lo mismo), ¿qué podemos decir? Obviamente, hay un desequilibrio importante, ya que 14 caras frente a 6 cruces (o 15 frente a 5, etc.) no parece un resultado muy equilibrado. La distribución binomial nos dice que la probabilidad de tener 14 caras o más cuando tiramos una moneda 20 veces es de aproximadamente 0,0577, igual que la de tener 6 caras o menos. En total, la probabilidad de obtener alguna de las combinaciones (caras, cruces), como por ejemplo (0,20), (1,19), (2,18), (3,17), (4,16), (5,15), (6,14) y las análogas (14,6), (15,5), …, (20,0) es de 0,1154, simplemente por azar.
Por lo tanto, con un p-valor de 0,05 no podemos decir que la moneda esté trucada, porque la probabilidad de observar al azar 14 caras o más en 20 lanzamientos es más alta, pero, ¿y si hubiéramos hecho 40 lanzamientos y hubiéramos observado 28 caras (es decir, el doble)?
En la asignatura Probabilidad y estadística del grado de Ciencia de Datos Aplicada de la UOC aprenderéis a formular hipótesis y a usar test estadísticos y p-valores para validarlas o refutarlas.
Enlaces relacionados
El valor p en Wikipedia: https://es.wikipedia.org/wiki/Valor_p
Calculadora en línea para la distribución binomial: https://homepage.divms.uiowa.edu/~mbognar/applets/bin.html