La paradoxa de Simpson

Descripció

La paradoxa de Simpson, també anomenada efecte de Yule-Simpson, consisteix en la desaparició o inversió d’una relació entre diferents variables quan les dades s’agrupen de forma diferent, en funció d’una altra variable no considerada prèviament. Encara que altres autors havien esmentat l’efecte anteriorment, va ser Simpson el primer que va publicar un treball de caràcter tècnic en el qual la descrivia.

Simpson, Edward H. (1951). «The Interpretation of Interaction in Contingency Tables». Journal of the Royal Statistical Society, Series B (vol. 13, núm. 2, pàg. 238-241).

La idea bàsica és que fins i tot una correlació elevada oposada entre dues variables pot ser interpretada erròniament, si una tercera variable usada per a separar en grups les dades analitzades porta implícita una altra associació que pot ser també rellevant, però de signe contrari. Per tant, l’ordre de selecció de variables quan s’analitzen correlacions és important i, com sempre, una inspecció visual prèvia de les dades pot ser d’ajuda.

Enllaç al recurs

https://en.wikipedia.org/wiki/simpson%27s_paradox

Exemple d’ús

La paradoxa de Simpson és més fàcil d’entendre mitjançant una visualització de dades com la següent. Si es considera tot el conjunt de dades, s’obté una correlació negativa entre les dues variables representades de –0,74, que es pot percebre a simple vista. Però si es consideren els grups determinats per una tercera variable, es pot observar que, per a cada grup, la correlació obtinguda per a cadascun d’ells té una magnitud semblant, però de signe contrari.

Font: https://commons.wikimedia.org/wiki/file:Simpsons_paradox_-_animation.gif

Enllaços relacionats

Beyond Simpson’s Paradox: One problem in Data Science: https://link.springer.com/chapter/10.1007/978-3-642-72253-0_9

Exemple de les admissions en UC Berkeley per gènere: https://www.r-bloggers.com/simpsons-paradox-is-back/