ggplot2

1. Cicle de vida

2. Tipologia

4. Llenguatge de programació

Descripció

ggplot2 és un paquet R que permet la creació de gràfics avançats mitjançant la superposició de capes que determinen l’aspecte i la posició dels elements que componen el gràfic. Està basat en el que es coneix com «la gramàtica dels gràfics», creada per Leland Wilkinson, que permet pensar un gràfic com una superposició (tant en el físic com en l’abstracte) d’elements i els seus atributs, de manera que cada part de la sentència que genera el gràfic té la seva pròpia sintaxi i significat i s’ocupa d’un aspecte del gràfic.

Enllaç al recurs

https://ggplot2.tidyverse.org

Exemples d’ús

El següent exemple mostra com crear un histograma amb ggplot2 d’un conjunt de dades fictici que conté, entre altres camps, l’edat dels usuaris d’un servei.

El codi que genera el gràfic és el següent (s’han numerat les línies per a millorar-ne la lectura):

1     # carregar el package       
2     library(ggplot2)            
3                                       
4     # creació del gràfic
5     ggplot(data=DATA, aes(DATA$AGE)) + 
6           geom_histogram(breaks=seq(20, 50, by = 2), 
                 col="xarxa", 
                 fill="green", 
                 alpha = .2) + 
7           labs(title="Histogram for Age") +
8           labs(x="Age", i="Count") + 
9           xlim(c(18,52)) +
10          ylim(c(0,30))

DATA és l’estructura o data.frame que emmagatzema les dades (llegits d’un fitxer CSV, per exemple) i AGE és la columna que conté l’edat de la qual volem visualitzar l’histograma.

Després de carregar el package mitjançant la línia 2, en la línia 5 es compon el gràfic mitjançant la suma (usant el mateix operador ‘+’) de les línies 5 a la 10, ambdues incloses. Cada línia afegeix una capa o determina certa informació del gràfic que volem obtenir amb l’histograma. Així, per exemple:

  • La línia 5 crea un gràfic base indicant només quines dades i quin camp o atribut s’empraran per a crear el gràfic.
  • La línia 6 determina la geometria del gràfic, en aquest cas, un histograma, indicant amb paràmetres l’interval de l’eix de les abscisses i els colors usats.
  • Les línies 7 i 8 permeten especificar el títol del gràfic i els textos de cada eix respectivament.
  • Finalment, les línies 9 i 10 permeten especificar el rang de valors de cada eix, la qual cosa determinarà l’aspecte i posició del gràfic generat pel que fa a la zona de treball, tenint en compte, per exemple, l’especificat en la línia 6.

Enllaços relacionats

https://towardsdatascience.com/a-comprehensive-guide-to-the-grammar-of-graphics-for-effective-visualization-of-multi-dimensional-1f92b4ed4149

https://en.wikipedia.org/wiki/leland_wilkinson