Principios importantes a (no) tener (tanto) en cuenta

Autor: Julià Minguillón

Los textos e imágenes publicados en esta obra están sujetos (excepto que se indique lo contrario) a una licencia de Reconocimiento-Compartir igual (BY-SA) v.3.0 España de Creative Commons. Se puede modificar la obra, reproducirla, distribuirla o comunicarla públicamente siempre que se cite el autor y la fuente (FUOC. Fundació per a la Universitat Oberta de Catalunya), y siempre que la obra derivada quede sujeta a la misma licencia que el material original. La licencia completa se puede consultar en: http://creativecommons.org/licenses/by-sa/3.0/es/legalcode.es

1. Ciclo de vida

3. Ámbito de aplicación

Descripción

En este hilo de tuits, Maarten van Smeden lleva a cabo un repaso de algunos de los principios que más preocupan a los científicos de datos cuando analizan los resultados de un experimento, explica su importancia real y da consejos para los casos en los que estos principios no se cumplen en su totalidad. Es decir, muchas veces un experimento que no satisface unos ciertos principios considerados básicos puede estar dándonos información relevante sobre el problema que analizamos. Para cada principio, el autor proporciona un artículo en el que se desarrolla el concepto de manera detallada.

Los principios que se supone que hay que vigilar en un análisis estadístico «ideal» son los siguientes:

  • La significación de las asociaciones de una sola variable. Muchas veces, antes de proceder con el análisis multivariante, se lleva a cabo un análisis bivariante y se buscan relaciones entre las variables independientes y la dependiente. Esto puede inducir a pensar en incluir en el modelo multivariante solo las variables que tienen una cierta relación, lo que nos puede hacer descartar otras variables que pueden ser relevantes cuando se combinan entre sí o con otras. El autor nos recomienda, simplemente, no hacer este análisis bivariante previo si el objetivo es seleccionar variables.
  • La significación de los test de ajuste del modelo (goodness of fit). No hay modelos «perfectos», todos los modelos son aproximaciones, por lo que la cuestión es cuánta imperfección podemos aceptar en nuestro modelo. Como detallan distintos autores, el nivel de calibración de un modelo depende de su uso posterior, y algunos test habituales como el de Hosmer-Lemeshow son ineficaces.
  • El desequilibrio en los datos obtenidos en muestreos aleatorios. Cuando se realiza una encuesta a una población y se selecciona una muestra, esta debería ser lo más representativa posible de la población, para evitar los sesgos típicos que aparecen respecto a grupos infrarepresentados o sobrerepresentados. Es por ello que se acostumbran a diseñar estratos de población en una dimensión o más para asegurar un mínimo de respuestas en cada estrato, de acuerdo con las variables que se consideran importantes para el estudio que se está haciendo. Más que preocuparse por los estratos, lo que nos dice el autor es que lo importante es que la muestra sea realmente aleatoria.
  • La falta de normalidad en las observaciones. Muchas veces la supuesta normalidad de los datos no se cumple, lo que pone en cuestión la validez de muchos test estadísticos y otras técnicas que la tienen como premisa. Es más adecuado analizar la normalidad de los residuos de un modelo para ver que no incorpora un sesgo considerable.
  • La multicolinealidad. Como dice el autor, es seguramente uno de los principios más sobrevalorados, cuando en realidad tiene una importancia relativa. Como comenta el autor, aunque la multicolinealidad puede causar problemas con los coeficientes del modelo que la presentan, ello no ocurre con el resto de variables ni con la predicción.

En la asignatura Análisis multivariante del grado de Ciencia de Datos Aplicada de la UOC practicaréis algunos de estos conceptos.

Enlace al recurso

https://threadreaderapp.com/thread/1373189746176970753.html

Enlaces relacionados

Análisis bivariante: https://en.wikipedia.org/wiki/Bivariate_analysis

Test de Hosmer-Lemeshow: https://en.wikipedia.org/wiki/Hosmer-Lemeshow_test

Aleatorización: https://en.wikipedia.org/wiki/Randomization

Test de normalidad: https://en.wikipedia.org/wiki/Normality_test

Multicolinealidad: https://en.wikipedia.org/wiki/Multicollinearity