Descripción
En este hilo de tuits, Maarten van Smeden lleva a cabo un repaso de algunos de los principios que más preocupan a los científicos de datos cuando analizan los resultados de un experimento, explica su importancia real y da consejos para los casos en los que estos principios no se cumplen en su totalidad. Es decir, muchas veces un experimento que no satisface unos ciertos principios considerados básicos puede estar dándonos información relevante sobre el problema que analizamos. Para cada principio, el autor proporciona un artículo en el que se desarrolla el concepto de manera detallada.
Los principios que se supone que hay que vigilar en un análisis estadístico «ideal» son los siguientes:
- La significación de las asociaciones de una sola variable. Muchas veces, antes de proceder con el análisis multivariante, se lleva a cabo un análisis bivariante y se buscan relaciones entre las variables independientes y la dependiente. Esto puede inducir a pensar en incluir en el modelo multivariante solo las variables que tienen una cierta relación, lo que nos puede hacer descartar otras variables que pueden ser relevantes cuando se combinan entre sí o con otras. El autor nos recomienda, simplemente, no hacer este análisis bivariante previo si el objetivo es seleccionar variables.
- La significación de los test de ajuste del modelo (goodness of fit). No hay modelos «perfectos», todos los modelos son aproximaciones, por lo que la cuestión es cuánta imperfección podemos aceptar en nuestro modelo. Como detallan distintos autores, el nivel de calibración de un modelo depende de su uso posterior, y algunos test habituales como el de Hosmer-Lemeshow son ineficaces.
- El desequilibrio en los datos obtenidos en muestreos aleatorios. Cuando se realiza una encuesta a una población y se selecciona una muestra, esta debería ser lo más representativa posible de la población, para evitar los sesgos típicos que aparecen respecto a grupos infrarepresentados o sobrerepresentados. Es por ello que se acostumbran a diseñar estratos de población en una dimensión o más para asegurar un mínimo de respuestas en cada estrato, de acuerdo con las variables que se consideran importantes para el estudio que se está haciendo. Más que preocuparse por los estratos, lo que nos dice el autor es que lo importante es que la muestra sea realmente aleatoria.
- La falta de normalidad en las observaciones. Muchas veces la supuesta normalidad de los datos no se cumple, lo que pone en cuestión la validez de muchos test estadísticos y otras técnicas que la tienen como premisa. Es más adecuado analizar la normalidad de los residuos de un modelo para ver que no incorpora un sesgo considerable.
- La multicolinealidad. Como dice el autor, es seguramente uno de los principios más sobrevalorados, cuando en realidad tiene una importancia relativa. Como comenta el autor, aunque la multicolinealidad puede causar problemas con los coeficientes del modelo que la presentan, ello no ocurre con el resto de variables ni con la predicción.
En la asignatura Análisis multivariante del grado de Ciencia de Datos Aplicada de la UOC practicaréis algunos de estos conceptos.
Enlace al recurso
https://threadreaderapp.com/thread/1373189746176970753.html
Enlaces relacionados
Análisis bivariante: https://en.wikipedia.org/wiki/Bivariate_analysis
Test de Hosmer-Lemeshow: https://en.wikipedia.org/wiki/Hosmer-Lemeshow_test
Aleatorización: https://en.wikipedia.org/wiki/Randomization
Test de normalidad: https://en.wikipedia.org/wiki/Normality_test
Multicolinealidad: https://en.wikipedia.org/wiki/Multicollinearity