Tabula

1. Cicle de vida

2. Tipologia

3. Àmbit d'aplicació

Descripció

Es tracta d’una aplicació multiplataforma (Mac, Windows i Linux) que permet l’extracció de taules contingudes en fitxers en format PDF, i la possibilitat d’exportar aquestes taules a format CSV o XLS.

El seu funcionament és molt senzill i intuïtiu, simplement és necessari carregar el PDF desitjat i seleccionar la taula o taules que s’han d’extreure, i indicar el format de sortida desitjat. És important destacar que l’extracció només es pot fer en fitxers de text PDF, no suporta documents escanejats provinents de formats gràfics de tipus mapa de bits (PNG, TIFF).

Enllaç al recurs

http://tabula.technology

Exemples d’ús

En aquest exemple extraurem una taula que es troba en un fitxer PDF i l’exportarem a format CSV. El fitxer PDF que utilitzarem com a font de dades és el següent: http://www.uoc.edu/portal/_resources/ca/documents/persones/plantilla_uoc_-_estructura_agost_2018.pdf

Els passos que seguirem utilitzant Tabula són:

1) Importar el fitxer PDF a l’eina.

2) Seleccionar visualment i interactuant amb Tabula la taula de la qual volem extreure les dades; en aquest cas, es tracta de la taula «Personal d’estructura» o mitjançant el sistema d’autodetecció de taules.

3) Avancem al pas de previsualització i exportació de dades, en què podrem validar que la informació i l’estructura són correctes:

4) Finalment, seleccionarem el format CSV per a exportar la informació.

Enllaços relacionats

https://schoolofdata.org/extracting-data-from-pdfs