Repositori UCI ML

2. Tipologia

Dades

3. Àmbit d'aplicació

Aprenentatge automàtic

Descripció

El repositori UCI Machine Learning alberga una col·lecció de bases de dades i datasets que són utilitzats per la comunitat per a l’anàlisi empírica d’algorismes de Machine Learning. El repositori va ser creat com un arxiu ftp l’any 1987 per David Aha i altres estudiants graduats de la UC Irvine. Des de llavors, ha estat àmpliament utilitzat per estudiants, educadors i investigadors de tot el món com a font primària de conjunts de dades d’aprenentatge automàtic per poder comparar entre algorismes.

Es tracta d’un portal web que permet l’accés als datasets en funció de la tasca objectiu (classificació, regressió, clústering o una altra), el tipus dels atributs (categòrics i/o numèrics), la naturalesa de les dades (multivariats, sèries temporals, textuals, etc.), l’àrea de coneixement i, finalment, els aspectes relatius al data set mateix, com són la seva mida (nombre d’elements i dimensionalitat) i el seu format (tabular o un altre).

Actualment alberga més de 450 conjunts de dades o datasets per a la utilització per part de la comunitat, incloent-hi entre d’altres els datasets Iris, Breast Cancer Wisconsin o Wine. D’altra banda, també és possible col·laborar amb el repositori UCI ML com a proveïdors de dades, subministrant un conjunt de dades de les quals disposem o que hàgim generat. Això és interessant perquè si un conjunt de dades es fa popular, pot proporcionar molta visibilitat als seus autors, especialment si el dataset està descrit en un article publicat i disponible en obert.

Enllaç al recurs

https://archive.ics.uci.edu/ml/

Exemple d’ús

En el repositori podem trobar un dataset de ressenyes sobre deu categories a Àsia oriental, l’origen de la qual és la web Tripadvisor.com. Mitjançant la següent adreça http://archive.ics.uci.edu/ml/datasets/travel+Reviews podem accedir al seu contingut, així com descarregar-lo per a un posterior tractament amb una eina d’anàlisi o llenguatge de programació.

Cada ressenya d’un usuari es qualifica com a excel·lent (4), molt bona (3), mitjana (2), dolenta (1) i terrible (0) i la qualificació mitjana és usada per a cada categoria per usuari. S’han obtingut 980 instàncies per usuari per a cadascuna de les deu categories (galeries d’art, museus, bars…).

L’estructura de dades que podem trobar en el fitxer és la següent:

Atribut 1: Identificador d’usuari únic
Atribut 2: Feedback mitjà de galeries d’art
Atribut 3: Feedback mitjà de locals de ball
Atribut 4: Feedback mitjà de bars
Atribut 5: Feedback mitjà de restaurants
Atribut 6: Feedback mitjà de museus
Atribut 7: Feedback mitjà de resorts
Atribut 8: Feedback mitjà de parcs/punts de pícnic
Atribut 9: Feedback mitjà de platges
Atribut 10: Feedback mitjà de teatres
Atribut 11: Feedback mitjà d’institucions religioses

Amb aquest conjunt es podria, per exemple, analitzar si hi ha alguna relació entre atributs, amb l’objectiu de millorar les recomanacions d’una categoria a partir de les puntuacions donades en altres categories afins.

Enllaços relacionats

About: https://archive.ics.uci.edu/ml/about.html

Python API: https://towardsdatascience.com/introducing-a-simple-and-intuitive-python-api-for-uci-machine-learning-repository-fd2ce8eb6cd4