Repositorio UCI ML

2. Tipología

Datos

3. Ámbito de aplicación

Machine learning

Descripción

El repositorio UCI Machine Learning alberga una colección de bases de datos y datasets que son utilizados por la comunidad para el análisis empírico de algoritmos de Machine Learning. El repositorio fue creado como un archivo ftp en 1987 por David Aha y otros estudiantes graduados de la UC Irvine. Desde entonces, ha sido ampliamente utilizado por estudiantes, educadores e investigadores de todo el mundo como fuente primaria de conjuntos de datos de aprendizaje automático para poder comparar entre algoritmos.

Se trata de un portal web que permite el acceso a los datasets en función de la tarea objetivo (clasificación, regresión, clustering u otra), el tipo de los atributos (categóricos y/o numéricos), la naturaleza de los datos (multivariados, series temporales, textuales, etc.), el área de conocimiento y, finalmente, los aspectos relativos al propio dataset, como son su tamaño (número de elementos y dimensionalidad) y su formato (tabular u otro).

Actualmente alberga más de 450 conjuntos de datos o datasets para la utilización por parte de la comunidad, incluyendo los datasets Iris, Breast Cancer Wisconsin o Wine, entre otros. Por otra parte, también es posible colaborar con el repositorio UCI ML como proveedores de datos, suministrando un conjunto de datos de los que dispongamos o que hayamos generado. Esto es interesante porque si un conjunto de datos se hace popular, puede proporcionar mucha visibilidad a sus autores, especialmente si el dataset está descrito en un artículo publicado y disponible en abierto.

Enlace al recurso

https://archive.ics.uci.edu/ml/

Ejemplo de uso

En el repositorio podemos encontrar un dataset de reseñas sobre 10 categorías en Asia Oriental, cuyo origen es la web TripAdvisor.com. Mediante la siguiente dirección http://archive.ics.uci.edu/ml/datasets/Travel+Reviews podemos acceder a su contenido, así como descargarlo para un posterior tratamiento con una herramienta de análisis o lenguaje de programación.

Cada reseña de un usuario se califica como excelente (4), muy buena (3), promedio (2), mala (1) y terrible (0) y la calificación promedio es usada para cada categoría por usuario. Se han obtenido 980 instancias por usuario para cada una de las 10 categorías (galerías de arte, museos, bares…).

La estructura de datos que podemos encontrar en el fichero es la siguiente:

Atributo 1: Identificador de usuario único
Atributo 2: Feedback medio de galerías de arte
Atributo 3: Feedback medio de locales de baile
Atributo 4: Feedback medio de bares
Atributo 5: Feedback medio de restaurantes
Atributo 6: Feedback medio de museos
Atributo 7: Feedback medio de resorts
Atributo 8: Feedback medio de parques/puntos de picnic
Atributo 9: Feedback medio de playas
Atributo 10: Feedback medio de teatros
Atributo 11: Feedback medio de instituciones religiosas

Con este conjunto se podría, por ejemplo, analizar si hay alguna relación entre atributos, con el objetivo de mejorar las recomendaciones de una categoría a partir de las puntuaciones dadas en otras categorías afines.

Enlaces relacionados

About: https://archive.ics.uci.edu/ml/about.html

Python API: https://towardsdatascience.com/introducing-a-simple-and-intuitive-python-api-for-uci-machine-learning-repository-fd2ce8eb6cd4