Introducción al modelado bayesiano aplicado

Autor: Julià Minguillón

Los textos e imágenes publicados en esta obra están sujetos (excepto que se indique lo contrario) a una licencia de Reconocimiento-Compartir igual (BY-SA) v.3.0 España de Creative Commons. Se puede modificar la obra, reproducirla, distribuirla o comunicarla públicamente siempre que se cite el autor y la fuente (FUOC. Fundació per a la Universitat Oberta de Catalunya), y siempre que la obra derivada quede sujeta a la misma licencia que el material original. La licencia completa se puede consultar en: http://creativecommons.org/licenses/by-sa/3.0/es/legalcode.es

1. Ciclo de vida

2. Tipología

3. Ámbito de aplicación

4. Lenguaje de programación

Descripción

Este libro, escrito por Alicia A. Johnson, Miles Q. Ott y Mine Dogucu, describe qué es el modelado según la perspectiva bayesiana y cómo podemos aplicarlo en ejemplos reales frente a la perspectiva frecuentista, más habitual en los cursos de estadística y probabilidad. Simplificando mucho, la perspectiva bayesiana plantea que hay una probabilidad a priori de que un hecho tenga lugar, mientras que la frecuentista dice que si recogemos suficientes datos podremos estimar la probabilidad del hecho. Por ejemplo, ante el lanzamiento de una moneda sin más información, la perspectiva bayesiana dice que tanto la cara como la cruz son igualmente probables. En cambio, la perspectiva frecuentista dice que si lanzamos la moneda suficientes veces, podremos estimar la probabilidad de que salga cara (o cruz).

El libro empieza con los fundamentos bayesianos y describiendo la regla de Bayes para la probabilidad condicional, que permite hacer estimaciones empleando conocimiento a priori de un hecho. Esta idea de conocimiento previo se desarrolla después en diferentes capítulos con ejemplos en R para modelar distribuciones de probabilidad a priori, el uso de simulaciones y el cálculo de sus distribuciones conjugadas.

Más adelante, el libro plantea cómo se pueden usar simulaciones para calcular los parámetros de una distribución a posteriori, incluyendo el método de Montecarlo por cadenas de Markov y otros algoritmos más avanzados. Otro bloque describe cómo podemos hacer regresiones y clasificaciones utilizando la perspectiva bayesiana y terminando con el clasificador bayesiano Naive. Por último, el libro explica la extensión hacia modelos jerárquicos. Se trata de un libro de un nivel claramente avanzado, pero que describe muy bien los conceptos, de manera muy entendedora, y los enriquece con un montón de ejemplos en R.

Enlace al recurso

https://www.bayesrulesbook.com/

Ejemplo de uso

El libro empieza con un ejercicio muy interesante sobre la dualidad frecuentista-bayesiana mediante una serie de preguntas y las posibles respuestas, que nos ayuda a entender los conceptos que hay detrás de la perspectiva bayesiana, y sobre todo el hecho de incorporar conocimiento a priori del problema.

Supongamos que escuchamos una entrevista a un ciudadano estadounidense en la televisión, pero no sabemos de dónde es. De entrada, el censo de los Estados Unidos nos dice que el 21 % viven en el Medio Oeste (M); el 17 %, en el Noreste (N); el 38 %, en el Sur (S) y el 24 % restante, en el Oeste (W). Así, lo más probable es que el estadounidense sea del sud; es todo lo que podemos decir.

Pero imaginemos que en la entrevista el estadounidense dice «pásame mi pop», donde pop es un nombre posible para decir cola, igual que soda. A partir de los datos de una encuesta, podemos estimar la proporción de decir pop (en lugar de cualquier otra cosa) para cada una de las regiones anteriores, y sabemos que para el Medio Oeste es del 64,5 %; para el Noreste, del 27,3 %; para el Sur, del 7,9 %, y para el Oeste, del 29,4 %, es decir, que es muy extraño que alguien del Sur diga pop. ¿Cambia esto nuestra predicción sobre el origen del estadounidense? Estas estimaciones son lo que denominamos verosimilitud (del inglés likelihood):

L(M|A) = 0.6447, L(N|A) = 0.2734, L(S|A) = 0.0792, L(W|A) = 0.2943

Antes de nada, podemos estimar la probabilidad de que una persona cualquiera en los Estados Unidos diga pop como la suma ponderada de las probabilidades de decirlo en función de cada región, resultando en un 28,3 %, aproximadamente.

P(A) = L(M|A)P(M) + L(N|A)P(N) + L(S|A)P(S) + L(W|A)P(W) =

0.6447 · 0.21 + 0.2734 · 0.17 + 0.0792 · 0.38 + 0.2943 · 0.24 ≈ 0.2826

Aquí A es el hecho de decir «pop». Usando la regla de Bayes, podemos estimar la probabilidad de que el estadounidense viva en el Sur en un 10,7 %, aproximadamente. Si hacemos lo mismo para todas las regiones, podremos ver que la probabilidad a posteriori (después de incluir el conocimiento sobre el hecho de decir «pop») más alta corresponde al Medio Oeste, con un 47,9 %, así que esta será nuestra predicción más cuidadosa con la información que tenemos.

En la asignatura Modelización e inferencia bayesiana del grado de Ciencia de Datos Aplicada de la UOC trabajaréis con las herramientas necesarias para poder entender el razonamiento bayesiano.

Enlaces relacionados

Probabilidad bayesiana: https://es.wikipedia.org/wiki/Probabilidad_bayesiana

Bayesian probability for babies: https://twitter.com/alliekmiller/status/1550143342394150912

Navie Bayes classifier: https://en.wikipedia.org/wiki/Naive_Bayes_classifier