Sans exagération, nous sommes dans une époque de visuels. Un nombre considérable de photos fantastiques sont affichés sur Instagram, Pinterest et les sites d’e-commerce. Les concepteurs, les propriétaires d’e-commerce, les gens de marketing vont s’en inspirer beaucoup et naturellement ils doivent trouver une façon effective pour récupérer et télécharger les images. Voilà le sujet de notre article : comment récupérer toutes les images d’un site Web rapidement ?
Je vais vous introduire quatre façons d’extraire et de télécharger par lot les images. Et pour chaune, les points forts et les inconvénients sont mentionnés. L’objectif est de vous aider à trouver le meilleur moyen pour extraire et télécharger les images des sites Web.
Allez-y !
Octoparse [le plus recommendé]
Pour extraire toutes les images d’un site Web, la façon la plus recommendée est utiliser Octoparse, un outil de web scraping, qui permet non seulement de télécharger à grande échelle les images mais aussi de scraper le texte, l’url d’image et tout autres informations tant que vous en avez besoin. Voilà où réside son plus grand point fort. En outre, cette méthode peut s’étendre au téléchargement d’autres fichiers comme pdf. La dernière version introduit la fonction tant désirée : télécharger les fichiers vers des appareils locaux. Il est maintenant possible de télécharger les documents aux formats jpg, png, gif, doc, pdf, ppt, txt, xls, et zip.
Comment utiliser Octoparse pour récupérer toutes les images d’un site Web ?
Voilà l’URL d’exemple : https://www.rappi.com.mx/tiendas/tipo/market Je vous invite à télécharger Octoparse et à suivre les étapes suivantes avec moi pour récupérer toutes les images d’un site Web.
Les étapes sont simples : Entrer l’URL –>> cliquer une des images –>> choisir “Sélectionner tous les élements similaires” –>> cliquer sur “Fichier d’image”
Dans la section de Aperçu de données, vous verrez les URLs et l’adresse locale où sont sauvegardées les images récupérées.
Sous les situations réelles, on veut extraire plus d’images que sur un écran. Continuez de lire pour savoir comment extraire les images sur plusieurs pages ou sur plusieurs sites.
- Premier cas : « Je vais récupérer des images s’étendant sur de nombreuses pages »
Avec Octoparse, vous pouvez ajouter une pagination au crawler afin qu’il puisse automatiquement récupérer les images sur une multitude de pages, au lieu de télécharger les images page par page à l’aide d’un outil d’extension.
Tutoriel : Comment gérer la pagination (cliquer sur un bouton “Suivant”) ?
- Deuxième cas : « Je vais extraire des images sous un mode de défilement infini »
Il y a des sites d’images comme Google Images qui mettent en application le défilement infini comme mode de chargement de nouvelles images au lieu de la pagination. Est-il possible d’extraire des images qui se chargent avec le défilement infini ?
Oui ! Octoparse est équipé d’un navigateur intégré qui simule les activités humaines et visualise le processus. En fonction de la quantité d’images que vous souhaitez charger, il suffit de définir le temps de défilement approprié et la manière de défiler, pour faire défiler la page automatiquement avant de commencer le téléchargement d’images.
- Troisième cas : « Je veux non seulement les images mais aussi d’autres informations qui y sont liées »
Les personnes qui travaillent dans l’e-commerce ne se contenteront pas d’avoir uniquement les images de produits. Ils doivent étudier non seulement l’apparence et la conception du produit, mais également les prix et d’autres paramètres pour évaluer sa performance globale.
Octoparse propose des modèles de web scraping pour les utilisateurs à scraper une série de sites Web tels qu’Amazon, Yelp, Booking, etc. Dans ce cas, vous pouvez non seulement gratter les URL des images, mais également d’autres informations sur le produit, le restaurant ou l’hôtel.
Voilà les données Amazon qu’on extrait à l’aide des modèles d’Octoparse.
Avec les deux ensembles de données à la main (images et informations détaillées relatives), vous disposez maintenant d’une petite base de données de produits !
Logiciels de téléchargeur d’images
Pour ceux qui ne veulent rien installer sur son ordinateur, les deux outils suivants sont à leur choix.
1. Image Cyborg
Il s’agit d’une application web qui télécharge rapidement les images. Son interface est simple et claire, ressemblant largement à un moteur de recherche. Les utilisateurs n’ont rien d’autre à faire que de télécharger les images.
Malgré sa facilité, il présente toujours quelques défauts apparents. Voici mes expériences d’utilisation.
- Dans la plupart des cas, les images sont à basse résolution et de petite taille.
- Les fichiers zip portent toujours le même nom : [image-cyborg], ce qui oblige les utilisateurs à renommer les fichiers un par un.
- Certains logos sont emballés mais vous pourriez en avoir besoin.
2. extract.pics
extract.pics est un autre outil doté d’une interface simple et claire. Ce qui s’avère le plus intéressant est que les utilisateurs peuvent prévisualiser toutes les images avant de les sélectionner, désélectionner et télécharger.
Cependant, vous risquez de rencontrer cette erreur lorsque vous essayez de télécharger toutes les images en un seul clic.
Extensions de navigateur
3. Extension pour Firefox
Vous serez peut-être surpris que tout se cache juste derrière un clic droit quand vous arrivez à télécharger toutes les images de la page présente en suivant les étapes suivantes en quelques secondes.
Étape 1 – Ouvrir dans Firefox le site Web dont les images vous allez récupérer. Cliquer droit sur la zone vide et vous verrez l’option “view page info”. Cliquer dessus.
Étape 2 – Se passer des informations générales et cliquer sur “Média”. Une liste d’URLs s’affichera et il s’agit d’URLs des images que vous allez télécharger.
Étape 3 – Cliquer sur “Select All” – “Save As” : vous obtenez maintenant toutes les images du site Web !
4. Extension pour Chrome
Voici un outil surtout à l’intention des utilisateurs de Chrome, une extension : Image Downloader.
Ouvrir le site Web dont les images vous souhaitez récupérer. Lancer l’extension et vous verrez un filtre qui peut vous aider à vous débarrasser des petites icônes et à ne télécharger que les images de taille normale.
Ces méthodes peuvent vous aider à télécharger les images du site Web cible en quelques secondes. Mais en même temps, ils s’y limitent. Si vous cherchez à extraire des images de plusieurs pages du site, que vous souhaitez obtenir en plus des informations liées à chacune des images, ces outils mentionnés sont loin d’être comparables à Octoparse.
Python
Si vous êtes un programmeur ou si vous êtes prêt à faire un pas plus grand pour voir comment extraire des images de sites Web, python pourrait être un moyen très classique pour atteindre la fin. Que diriez-vous de démarrer un petit projet de scrapy pour cela ?
Des étapes de base à utiliser Python dans le web scraping pour récupérer des images.
Tout d’abord, installer Beautiful Soup en tapant pip install bs4 en ligne de commande
Ensuite, importer le module > créer une instance de requests et passer-la dans l’URL > Passer les requests dans une fonction Beautifulsoup() > Utiliser la balise ‘img’ pour trouver toutes les balises (‘src’).
En conclusion
Nous avons découvert plusieurs façons d’extraire des images à partir des sites Web : sans codage ou avec code ; utiliser un logiciel de web scraping ou des outils spécialisés. Vous pouvez en choisir une selon vos besoins. L’outil le plus recommendé est d’employer Octoparse qui vous permet d’une part de récupérer toutes les images sur de nombreuses pages d’un site Web dans une tâche, et d’autres part d’extraire plus d’informations qui sont liées aux images. Bon scraping !