Conjunts de dades complexes per a visualitzacions de dades

Autor: Julià Minguillón

Els textos i imatges publicats en aquesta obra estan subjectes (llevat que s'indiqui el contrari) a una llicència de Reconeixement-Compartir igual (BY-SA) v.3.0 Espanya de Creative Commons. Podeu modificar l'obra, reproduirla, distribuir-la o comunicar-la públicament sempre que en citeu l'autor i la font (FUOC. Fundació per a la Universitat Oberta de Catalunya), i sempre que l'obra derivada quedi subjecta a la mateixa llicència que el material original. La llicència completa es pot consultar a http://creativecommons.org/licenses/by-sa/3.0/es/legalcode.ca

1. Cicle de vida

2. Tipologia

3. Àmbit d'aplicació

4. Llenguatge de programació

Descripció

Per fer bones visualitzacions de dades calen bons conjunts de dades, sobre els quals es puguin plantejar preguntes interessants i que siguin prou rics per extreure coneixement en forma de visualitzacions interactives, que permeten a l’usuari explorar-los, fer-se les preguntes pertinents i obtenir les respostes. En aquest sentit, aquesta col·lecció de conjunts de dades curats està pensada per aprendre a crear visualitzacions de dades fent servir Observable, un tipus de notebook orientat a crear visualitzacions interactives, explotant les possibilitats de la llibreria D3.js, considerada una de les millors en aquest sentit. Els conjunts de dades es poden trobar com a resultat d’una consulta SQL, en formats XLSX d’Excel, CSV o JSON, i també com el resultat d’una crida a una API, proporcionant exemples de cada tipus.

Enllaç al recurs

https://observablehq.com/@observablehq/curated-datasets

Exemple d’ús

Un dels conjunts de dades més interessants és la col·lecció del MoMA (Museum of Modern Art), que consisteix en gairebé 200.000 obres recopilades des de fa uns 150 anys aproximadament. El conjunt de dades conté les metadades de 138.531 obres d’art, incloent-hi el títol, l’artista, la data de creació, el mitjà o suport de l’obra, les mides, etc. També hi ha metadades dels artistes, com ara el nom, nacionalitat, gènere, data de naixement, enllaç a l’element de Wikidata si existeix, etc.

Els conjunts de dades es troben en format JSON i CSV, codificats en UTF-8, i es poden fer servir lliurement, ja que disposen d’una llicència CC0. L’exemple de notebook creat fent servir Observable usa una base de dades SQL per facilitar l’exploració de les dades mitjançant operacions senzilles, es pot filtrar per autor, any, etc.

Per exemple, voldríem saber quina és la distribució per gènere dels artistes, podem modificar la consulta SQL relativa a la taula dels artistes i comptar quants artistes hi ha per cada gènere:

select gender, count(*) from artists group by gender

Això ens mostra un resultat esperat i un altre d’inesperat. L’esperat, que la majoria d’artistes al conjunt de dades són homes (Male), 9.762 en total, mentre que només hi ha 2.300 dones (Female). També hi ha 3.141 artistes que no tenen el gènere definit (NULL). Però aquesta consulta revela un problema inesperat en un conjunt de dades «curat», hi ha 15 artistes etiquetats com a Male (en minúscules) i 1 com a Female, que és un error típic molt present en qualsevol base de dades. A més, hi ha dos etiquetats més com a Non-Binary i un més com a Non-binary. És a dir, dels autors amb gènere identificat (no NULL), els homes representen el 80,9 %, una xifra típica del biaix de gènere habitual.

A l’assignatura de Visualització de dades, del grau de Ciència de Dades Aplicada de la UOC, podreu fer servir conjunts de dades com aquests per resoldre els exercicis proposats de caire més pràctic.

Enllaços relacionats

Observable: https://observablehq.com/

La col·lecció del MOMA: https://github.com/MuseumofModernArt/collection

Llicència CC0: https://creativecommons.org/publicdomain/zero/1.0/

Llibreria D3.js: https://d3js.org/