Descripción
Recientemente se ha publicado un conjunto de datos que contiene información sobre las búsquedas que llevan a cabo las personas usuarias en internet (mediante Google, Yahoo, DuckDuckGo y otros buscadores) y que acaban llevando a páginas de Wikipedia. Este conjunto es muy interesante porque también permite saber qué buscador utilizan las personas usuarias de Wikipedia, en qué idioma lo tienen configurado, desde dónde hacen la búsqueda y con qué tipo de dispositivo (ordenador, tableta, móvil, etc.).
Según los autores, en un día cualquiera, el conjunto de datos muestra visitas a páginas de Wikipedia que vienen de unos doscientos veinte países diferentes, en cien idiomas diferentes, empleando cincuenta navegadores web diferentes, de catorce sistemas operativos diferentes, y veinte buscadores de internet diferentes.
Enlace al recurso
https://techblog.wikimedia.org/2021/06/07/searching-for-wikipedia/
Ejemplo de uso
Usando la interfaz proporcionada, podríamos preguntarnos desde qué países se hacen búsquedas en las cuatro lenguas oficiales más importantes (español, catalán, vasco y gallego). Usaremos la interfaz proporcionada por el dashboard, que permite aplicar filtros y búsquedas facetadas en el conjunto de datos mencionado.
Primero seleccionamos el periodo, elegiremos el mes de junio de 2022 mediante un filtro. Después, con un filtro de opción múltiple (tipo pin) seleccionaremos las cuatro lenguas, en este caso «es», «ca», «eu» y «gl». Finalmente, añadiremos un detalle por país y obtendremos el siguiente gráfico:
Cómo se puede observar, ha habido 454,1 millones de páginas visitadas y, de estas, casi la cuarta parte provienen de España, y el resto de países de Sudamérica y los Estados Unidos. Si ahora quitamos el idioma castellano, el gráfico cambia bastante:
El número de páginas visitadas se ha reducido considerablemente (solo un 1,4 % de las búsquedas son en las otras lenguas oficiales) y provienen solo de España, Estados Unidos y Singapur.
En la asignatura Análisis en entornos de Big Data del grado de Ciencia de Datos Aplicada de la UOC veréis cómo se pueden diseñar infraestructuras tecnológicas para ofrecer servicios como este.
Enlaces relacionados
Interfaz del dashboard para visualizar los datos: https://wiki-search-referrals.wmcloud.org/
Navega en catalán: https://www.softcatala.org/catalanitzador/
Navega en vasco: https://www.euskadi.eus/descargar-software-en-euskera/web01-a2eutres/es/
Navega en gallego: https://blogue.agora.gal/navega-en-galego/