OpenRefine

1. Cicle de vida

2. Tipologia

Descripció

OpenRefine és una eina per a la manipulació de dades provinents de diferents fonts i en diferents formats. Permet llegir diferents tipus de fitxers (CSV, JSON, XML o PDF entre altres), simplificar-ne l’estructura interna de camps, sigui jeràrquica o no, i aplicar filtres per a seleccionar un subconjunt de files i/o columnes, amb l’objectiu d’obtenir un resultat que pugui ser posteriorment analitzat.

Està basat en l’ús de facets, que permeten extreure vistes parcials d’un conjunt de dades mitjançant l’ús de filtres. A més, OpenRefine permet manipular el contingut dels camps utilitzant un llenguatge específic anomenat GREL (general refine expression language).

OpenRefine s’executa en local com una aplicació web en l’ordinador en el qual s’instal·la i n’existeixen versions per a diferents sistemes operatius. En funció de la mida dels fitxers que s’han de manipular, els requeriments de memòria i capacitat de còmput poden ser importants.

Enllaç al recurs

http://openrefine.org/

Exemples d’ús

Habitualment, la fase d’anàlisi d’un projecte de ciència de dades comença amb la preparació de les dades i la seva disponibilitat en forma tabular, en què cada element del conjunt és un registre o fila, i cada atribut és un camp o columna. OpenRefine permet accedir a diferents fitxers en diversos formats, inclosos els estructurats jeràrquicament, i extreure les dades desitjades en un format pla com el format CSV per a la seva anàlisi posterior.

Un exemple típic d’ús d’OpenRefine podria consistir en:

  • Lectura d’un fitxer en format JSON.
  • Inspecció dels valors que prenen diferents camps.
  • Enriquiment de les dades mitjançant l’ús d’API externes.
  • Selecció d’un subconjunt de files d’acord amb un facet (filtre).
  • Conversió de formats i creació de nous camps usant GREL.
  • Bolcat en un format tabular com CSV, per exemple.

Enllaços relacionats

https://en.wikipedia.org/wiki/openrefine