Dades sobre cerques a Wikipedia

Autor: Julià Minguillón

Els textos i imatges publicats en aquesta obra estan subjectes (llevat que s'indiqui el contrari) a una llicència de Reconeixement-Compartir igual (BY-SA) v.3.0 Espanya de Creative Commons. Podeu modificar l'obra, reproduirla, distribuir-la o comunicar-la públicament sempre que en citeu l'autor i la font (FUOC. Fundació per a la Universitat Oberta de Catalunya), i sempre que l'obra derivada quedi subjecta a la mateixa llicència que el material original. La llicència completa es pot consultar a http://creativecommons.org/licenses/by-sa/3.0/es/legalcode.ca

1. Cicle de vida

2. Tipologia

3. Àmbit d'aplicació

Descripció

Recentment, s’ha publicat un conjunt de dades que conté informació sobre les cerques que fan els usuaris a internet (mitjançant Google, Yahoo, DuckDuckGo i altres cercadors) i que acaben portant a pàgines de Wikipedia. Aquest conjunt és molt interessant perquè també permet saber quin cercador fan servir les persones usuàries de Wikipedia, en quin idioma el tenen configurat, des d’on fan la cerca i amb quin tipus de dispositiu (ordinador, tauleta, mòbil, etc.).

Segons els autors, un dia qualsevol el conjunt de dades mostra visites de pàgines de Wikipedia que venen d’uns 220 països diferents, en 100 idiomes diferents, emprant 50 navegadors web diferents de 14 sistemes operatius diferents, i 20 cercadors d’internet diferents.

Enllaç al recurs

https://techblog.wikimedia.org/2021/06/07/searching-for-wikipedia/

Exemple d’ús

Per exemple, fent servir la interfície proporcionada, podríem preguntar-nos des de quins països es fan cerques en les 4 llengües oficials més importants (espanyol, català, euskera i gallec). Farem servir la interfície proporcionada pel dashboard que permet aplicar filtres i cerques facetades en el conjunt de dades esmentat.

Primer seleccionem el període, triarem el mes de juny del 2022 mitjançant un filtre. Després, amb un filtre d’opció múltiple (tipus pin) seleccionarem les quatre llengües, en aquest cas «es», «ca», «eu» i «gl». I finalment, afegirem un detall per país i obtindrem la gràfica següent:

Com es pot veure, hi ha hagut 454,1 milions de pàgines visitades i, d’aquestes, gairebé la quarta part provenen d’Espanya, i la resta de països de Sud-amèrica i els Estats Units. Si ara traiem l’idioma castellà, el gràfic canvia considerablement:

El nombre de pàgines visitades s’ha reduït considerablement (només un 1.4 % de les cerques són en les altres llengües oficials), i provenen només d’Espanya, els Estats Units i Singapur.

A l’assignatura Anàlisi en entorns de Big Data, del grau de Ciència de Dades Aplicada de la UOC, veureu com es poden dissenyar infraestructures tecnològiques per oferir serveis com aquest.

Enllaços relacionats

Interfície del dashboard per visualitzar les dades: https://wiki-search-referrals.wmcloud.org/

Navega en català: https://www.softcatala.org/catalanitzador/

Navega en euskera: https://www.euskadi.eus/descargar-software-en-euskera/web01-a2eutres/es/

Navega en galego: https://blogue.agora.gal/navega-en-galego/