Conjuntos de datos complejos para visualizaciones de datos

Autor: Julià Minguillón

Los textos e imágenes publicados en esta obra están sujetos (excepto que se indique lo contrario) a una licencia de Reconocimiento-Compartir igual (BY-SA) v.3.0 España de Creative Commons. Se puede modificar la obra, reproducirla, distribuirla o comunicarla públicamente siempre que se cite el autor y la fuente (FUOC. Fundació per a la Universitat Oberta de Catalunya), y siempre que la obra derivada quede sujeta a la misma licencia que el material original. La licencia completa se puede consultar en: http://creativecommons.org/licenses/by-sa/3.0/es/legalcode.es

1. Ciclo de vida

Visualización

2. Tipología

Datos

3. Ámbito de aplicación

Análisis visual

4. Lenguaje de programación

Otros

Descripción

Para poder hacer buenas visualizaciones de datos son necesarios buenos conjuntos de datos sobre los que se puedan plantear preguntas interesantes y que sean lo bastante ricos para extraer conocimiento en forma de visualizaciones interactivas, lo que permite a la persona usuaria explorarlos, hacerse las preguntas pertinentes y obtener las respuestas. En este sentido, esta colección de conjuntos de datos seleccionados está pensada para aprender a crear visualizaciones de datos usando Observable, un tipo de notebook orientado a generar visualizaciones interactivas explotando las posibilidades de la biblioteca D3.js, considerada una de las mejores en este sentido. Los conjuntos de datos se pueden encontrar como resultado de una consulta SQL, en formatos XLSX de Excel, CSV o JSON, y también como el resultado de una llamada a una API, proporcionando ejemplos de cada tipo.

Enlace al recurso

https://observablehq.com/@observablehq/curated-datasets

Ejemplo de uso

Uno de los conjuntos de datos más interesantes es el de la colección del MoMA (Museo de Arte Moderno de Nueva York), que tiene casi 200.000 obras recopiladas desde hace unos ciento-cincuenta años, aproximadamente. El conjunto de datos contiene los metadatos de 138.531 obras de arte, incluyendo el título, el artista, la fecha de creación, el medio o soporte de la obra, las dimensiones, etc. También hay metadatos de los artistas, como por ejemplo el nombre, la nacionalidad, el género, la fecha de nacimiento, el enlace al elemento de Wikidata (si existe), etc.

Los conjuntos de datos están en formato JSON y CSV, codificados en UTF-8, y se pueden usar libremente, puesto que disponen de una licencia CC0. El ejemplo de notebook creado usando Observable utiliza una base de datos SQL para facilitar la exploración de los datos mediante operaciones sencillas y puede filtrarse por autor, año, etc.

Por ejemplo, si queremos saber cuál es la distribución por género de los artistas, podemos modificar la consulta SQL relativa a la tabla de los artistas y contar cuántos artistas hay por cada género:

select gender, count(*) from artists group by gender

Esto nos muestra un resultado esperado y otro inesperado. El esperado es que la mayoría de artistas en el conjunto de datos son hombres (Male), 9.762 en total, mientras que solo hay 2.300 mujeres (Female). También hay 3.141 artistas que no tienen el género definido (NULL). Sin embargo, esta consulta revela un problema inesperado en un conjunto de datos «seleccionado», hay quince artistas etiquetados como Male (en minúsculas) y uno como Female, que es un error típico muy presente en cualquier base de datos. Además, vemos otros dos etiquetados como Non-Binary y otro más como Non-binary. Es decir, de los autores con género identificado (no NULL), los hombres representan el 80,9 %, una cifra típica del sesgo de género habitual.

En la asignatura de Visualización de datos del grado de Ciencia de Datos Aplicada podréis usar conjuntos de datos como estos para resolver los ejercicios de tipo más práctico propuestos.

Enlaces relacionados

Observable: https://observablehq.com/

La colección del MoMA: https://github.com/MuseumofModernArt/collection

Licencia CC0: https://creativecommons.org/publicdomain/zero/1.0/

Biblioteca D3.js: https://d3js.org/