Scrapy

1. Cicle de vida

2. Tipologia

4. Llenguatge de programació

Descripció

Scrapy és una eina que permet la construcció de petits scripts en Python que recorren un conjunt de pàgines web extraient-ne l’estructura i els continguts, sense intervenció humana. Es pot usar per a accedir a una API de la qual es coneix l’estructura mitjançant l’automatització de les consultes, o per a extreure dades de pàgines web aprofitant-ne l’estructura interna, la qual és generalment regular.

Enllaç al recurs

https://scrapy.org

Exemples d’ús

Un exemple típic de Scrapy és l’extracció de dades d’una pàgina o servei web que no ofereix una API per a aquesta comesa. Si la pàgina web té certa estructura interna, en què  es repeteixen certs camps que contenen les dades desitjades, és possible inspeccionar aquesta estructura mitjançant l’ús del mateix navegador o altres eines. Una vegada que es coneix aquesta estructura, és possible crear un script amb Scrapy que extreu aquests continguts accedint directament a l’element de la pàgina HTML que el conté. A més, manipulant les URL emprades (de la web de la qual es vol extreure dades), és possible navegar de manera més o menys automatitzada.

Els passos per a dur a terme aquest procés amb Scrapy típicament són:

  1. Creació del projecte de Scrapy.
  2. Revisar l’estructura de la pàgina web (HTML) identificant les etiquetes o elements que volem extreure. És important prestar especial atenció a si les dades resideixen en una única pàgina o és necessari navegar mitjançant enllaços per a recuperar-les completament.
  3. Creació de l’script utilitzant Scrapy per a poder fer l’extracció (parsing) de la informació requerida.
  4. Execució de l’script anterior; es pot establir una execució periòdica per a mantenir les dades sempre actualitzades.
  5. Fer l’exportació de la informació extreta, per exemple, a format CSV.

Enllaços relacionats

https://en.wikipedia.org/wiki/scrapy

https://www.w3.org/tr/xpath/all/

https://scrapy.org/resources/