El repositorio de datos de investigación Dataverse

Autor: Julià Minguillón

Los textos e imágenes publicados en esta obra están sujetos (excepto que se indique lo contrario) a una licencia de Reconocimiento-Compartir igual (BY-SA) v.3.0 España de Creative Commons. Se puede modificar la obra, reproducirla, distribuirla o comunicarla públicamente siempre que se cite el autor y la fuente (FUOC. Fundació per a la Universitat Oberta de Catalunya), y siempre que la obra derivada quede sujeta a la misma licencia que el material original. La licencia completa se puede consultar en: http://creativecommons.org/licenses/by-sa/3.0/es/legalcode.es

1. Ciclo de vida

2. Tipología

3. Ámbito de aplicación

Descripción

Este repositorio de datos de investigación, mantenido por el  Consorci de Serveis Universitaris de Catalunya (CSUC), tiene como objetivo proporcionar a los investigadores un servicio para almacenar y publicar datos provenientes de proyectos de investigación. Los proyectos financiados por la Comisión Europea requieren que se elabore un plan de gestión de datos (data management plan, DMP) y se depositen los datos siguiendo los principios FAIR (findable, accesible, interoperable y reusable) con el objetivo de aumentar la eficiencia y la transparencia de la investigación mediante una rápida difusión de los resultados y de facilitar su reutilización.

El repositorio, que se puso en marcha en marzo de 2021, permite buscar por institución, por ámbito de conocimiento, por palabras clave o por tipos de datos, entre otros. Acepta datos en distintos formatos típicos, como por ejemplo SPSS, R, CSV, Excel, etc.

Actualmente no se está empleando en su máximo potencial, sobre todo por la falta de una cultura de acceso abierto entre los buscadores y la complejidad inherente de preparar un conjunto de datos para su publicación, puesto que hay que documentarlo adecuadamente y describirlo mediante metadatos, de manera que se cumplan los principios FAIR, y no se trata simplemente de colgar un conjunto de datos en el web.

Enlace al recurso

https://dataverse.csuc.cat/

Ejemplo de uso

Uno de los conjuntos de datos interesantes que puede encontrarse en el repositorio es el resultado de una investigación llevada a cabo por la Universidad de Barcelona en la zona noroeste del mar Mediterráneo, donde se recogieron muestras de plásticos presentes en el agua. El conjunto de datos está formado por seis ficheros de datos más un fichero Readme.txt, con información sobre el proyecto, las publicaciones relacionadas y los otros ficheros.

Por ejemplo, hay un fichero que contiene 24.970 muestras encontradas sobre las que se tienen veintiuna variables diferentes, como la localización (por ejemplo, delante de qué playa se encontraron) y la fecha en la que se recogieron, el número de partículas que forman la muestra y otras mediciones relacionadas con la forma, la medida y el color, tal y como muestra la figura. Otro fichero permite identificar el tipo de plástico de un subconjunto de las muestras encontradas, como por ejemplo si es polietileno, polipropileno o poliestireno, los tres más comunes.

Este conjunto de datos y otros os podrán ser útiles en distintas asignaturas del grado de Ciencia de Datos Aplicada de la UOC, en la que deberéis manipular datos, visualizarlos y construir y evaluar modelos.

Enlaces relacionados

Portal de la investigación de Cataluña: https://portalrecerca.csuc.cat/

Datos FAIR: https://es.wikipedia.org/wiki/Datos_FAIR

Los plásticos presentes en la costa: https://iopscience.iop.org/article/10.1088/1748-9326/ac5df1