Première page Précédent Suivant Dernière page Résumé Image
- Lister les urls qui nous intéressent
- Lire les pages (i.e. récupérer des listes d’éléments html)
- Repérer le ou les éléments d’intérêt dans les pages (connaissance basique du html, SelectorGadget)
- Parcourir l’arborescence de la page
- Sélectionner et récupérer un élément de la page
Web scraping
Pour récolter le contenu textuel d’un ensemble de pages web, il faut être en mesure de réaliser un certain nombre de traitements à l’aide d’un langage de programmation (R / Python /…)