Anàlisi visual de dades amb esquisse

Autor: Julià Minguillón

Els textos i imatges publicats en aquesta obra estan subjectes (llevat que s'indiqui el contrari) a una llicència de Reconeixement-Compartir igual (BY-SA) v.3.0 Espanya de Creative Commons. Podeu modificar l'obra, reproduirla, distribuir-la o comunicar-la públicament sempre que en citeu l'autor i la font (FUOC. Fundació per a la Universitat Oberta de Catalunya), i sempre que l'obra derivada quedi subjecta a la mateixa llicència que el material original. La llicència completa es pot consultar a http://creativecommons.org/licenses/by-sa/3.0/es/legalcode.ca

1. Cicle de vida

2. Tipologia

3. Àmbit d'aplicació

4. Llenguatge de programació

Descripció

Aquesta llibreria permet crear visualitzacions interactives de forma senzilla amb un editor visual, de manera que facilita una primera exploració de les dades des de dins d’RStudio sense haver de programar una sola línia de codi.

Bàsicament, el que fa esquisse és proporcionar una interfície gràfica per especificar tots els paràmetres que són necessaris en una crida de la funció ggplot(), mitjançant una aplicació escrita en Shiny.

Enllaç al recurs

https://dreamrs.github.io/esquisse/index.html

Exemple d’ús

Només cal instal·lar esquisse (i les dependències que pugui necessitar en funció de la nostra instal·lació d’R) i executar la funció esquisser() i passar com a paràmetre les dades que volem analitzar.

Suposem que tenim un conjunt de dades que ens diu de què es matriculen els estudiants del grau en Enginyeria Informàtica de la UOC, de primer i segon semestre que van començar els estudis la tardor del 2019. Podem crear un gràfic per veure la matrícula per assignatura (abrv), amb barres apilades per gènere (gender) i amb una segmentació per semestre (sem_enrol), i obtenim el resultat següent:

Podem veure que el percentatge de dones és generalment petit, però hi ha algunes assignatures que, per la raó que sigui, tenen un percentatge de dones més elevat, tot i que segurament és perquè hi ha menys homes que la matriculen perquè la tenen convalidada, això ens pot fer pensar que és necessari explorar més combinacions de variables, incloent-hi l’edat, la via d’accés, etc.

L’eina també ens genera el codi que crea el gràfic, així doncs, el podem fer servir en els nostres projectes i acabar d’ajustar petits detalls; per exemple, seria interessant ordenar les barres per percentatge de dones, no per l’abreviatura de l’assignatura:

ggplot(data) +
  aes(x = abrv, fill = gender) +
  geom_bar(position = "fill") +
  scale_fill_hue(direction = 1) +
  theme_minimal() +
  facet_wrap(vars(sem_enrol), ncol = 1L)

Aquesta eina us pot ser molt útil per explorar els conjunts de dades que fareu servir e els exercicis pràctics d’assignatures com Mineria de dades o Visualització de dades, dins del grau de Ciència de Dades Aplicada, de la UOC.

Enllaços relacionats

Shiny: https://shiny.rstudio.com/

ggplot2: https://ggplot2.tidyverse.org/