Datos sobre búsquedas en Wikipedia

Autor: Julià Minguillón

Los textos e imágenes publicados en esta obra están sujetos (excepto que se indique lo contrario) a una licencia de Reconocimiento-Compartir igual (BY-SA) v.3.0 España de Creative Commons. Se puede modificar la obra, reproducirla, distribuirla o comunicarla públicamente siempre que se cite el autor y la fuente (FUOC. Fundació per a la Universitat Oberta de Catalunya), y siempre que la obra derivada quede sujeta a la misma licencia que el material original. La licencia completa se puede consultar en: http://creativecommons.org/licenses/by-sa/3.0/es/legalcode.es

1. Ciclo de vida

2. Tipología

3. Ámbito de aplicación

Descripción

Recientemente se ha publicado un conjunto de datos que contiene información sobre las búsquedas que llevan a cabo las personas usuarias en internet (mediante Google, Yahoo, DuckDuckGo y otros buscadores) y que acaban llevando a páginas de Wikipedia. Este conjunto es muy interesante porque también permite saber qué buscador utilizan las personas usuarias de Wikipedia, en qué idioma lo tienen configurado, desde dónde hacen la búsqueda y con qué tipo de dispositivo (ordenador, tableta, móvil, etc.).

Según los autores, en un día cualquiera, el conjunto de datos muestra visitas a páginas de Wikipedia que vienen de unos doscientos veinte países diferentes, en cien idiomas diferentes, empleando cincuenta navegadores web diferentes, de catorce sistemas operativos diferentes, y veinte buscadores de internet diferentes.

Enlace al recurso

https://techblog.wikimedia.org/2021/06/07/searching-for-wikipedia/

Ejemplo de uso

Usando la interfaz proporcionada, podríamos preguntarnos desde qué países se hacen búsquedas en las cuatro lenguas oficiales más importantes (español, catalán, vasco y gallego). Usaremos la interfaz proporcionada por el dashboard, que permite aplicar filtros y búsquedas facetadas en el conjunto de datos mencionado.

Primero seleccionamos el periodo, elegiremos el mes de junio de 2022 mediante un filtro. Después, con un filtro de opción múltiple (tipo pin) seleccionaremos las cuatro lenguas, en este caso «es», «ca», «eu» y «gl». Finalmente, añadiremos un detalle por país y obtendremos el siguiente gráfico:

Cómo se puede observar, ha habido 454,1 millones de páginas visitadas y, de estas, casi la cuarta parte provienen de España, y el resto de países de Sudamérica y los Estados Unidos. Si ahora quitamos el idioma castellano, el gráfico cambia bastante:

El número de páginas visitadas se ha reducido considerablemente (solo un 1,4 % de las búsquedas son en las otras lenguas oficiales) y provienen solo de España, Estados Unidos y Singapur.

En la asignatura Análisis en entornos de Big Data del grado de Ciencia de Datos Aplicada de la UOC veréis cómo se pueden diseñar infraestructuras tecnológicas para ofrecer servicios como este.

Enlaces relacionados

Interfaz del dashboard para visualizar los datos: https://wiki-search-referrals.wmcloud.org/

Navega en catalán: https://www.softcatala.org/catalanitzador/

Navega en vasco: https://www.euskadi.eus/descargar-software-en-euskera/web01-a2eutres/es/

Navega en gallego: https://blogue.agora.gal/navega-en-galego/