Descripción
OpenRefine es una herramienta para la manipulación de datos provenientes de diferentes fuentes y en diferentes formatos. Permite leer diferentes tipos de ficheros (CSV, JSON, XML o RDF entre otros), simplificar su estructura interna de campos, sea jerárquica o no, y aplicar filtros para seleccionar un subconjunto de filas y/o columnas, con el objetivo de obtener un resultado que pueda ser posteriormente analizado.
Está basado en el uso de facets, que permiten extraer vistas parciales de un conjunto de datos mediante el uso de filtros. Además, OpenRefine permite manipular el contenido de los campos mediante el uso de un lenguaje específico llamado GREL (General Refine Expression Language).
OpenRefine se ejecuta en local como una aplicación web en el ordenador en el cual se instala, existiendo versiones para diferentes sistemas operativos. En función del tamaño de los ficheros por manipular, los requerimientos de memoria y capacidad de cómputo pueden ser importantes.
Enlace al recurso
Ejemplos de uso
Habitualmente, la fase de análisis de un proyecto de ciencia de datos empieza con la preparación de los datos y su disponibilidad en forma tabular, donde cada elemento del conjunto es un registro o fila, y cada atributo es un campo o columna. OpenRefine permite acceder a diferentes ficheros en diversos formatos, incluidos aquellos estructurados jerárquicamente, y extraer los datos deseados en un formato plano como el formato CSV para su posterior análisis.
Un ejemplo típico de uso de OpenRefine podría consistir en:
- Lectura de un fichero en formato JSON.
- Inspección de los valores que toman diferentes campos.
- Enriquecer los datos mediante el uso de API externas.
- Selección de un subconjunto de filas de acuerdo con un facet (filtro).
- Conversión de formatos y creación de nuevos campos usando GREL.
- Volcado en un formato tabular como CSV, por ejemplo.