Google scraping est un sujet qui retient de plus en plus d’attention des growthhackers, des spécialistes de marketing digital, des experts en référencement. Selon une étude menée sur les utilisateurs Octoparse, Google occupe la première place de la liste de top 10 sites le plus scrapés.
Dans cet article, on va présenter quatre façons utiles pour extraire les résultats de recherche de Google vers CSV/ Excel ou d’autres fichiers locaux. Et bien sûr, tant des méthodes no-code que quelques méthodes plus avancées sont incluses dans la fin de satisfaire les besoins des personnes avec connaissance de programmation de différents niveaux.
A propos de Google scraping
Pour scraper les résultats de recherche Google, comme pour les autres, il est important de passer un outil qui gère la rotation IP. En configurant un scraper, on se préoccupe toujours de la fréquence d’extraction, du délai entre deux actions, etc. pour simuler autant que possible une navigation réelle effectuée par l’être humain. Mais il est inévitable que Google détectera le robot vu que les étapes suivent le même ordre ou modèle. C’est là où sert la rotation IP. Quand Google comprend que tout est fait par un bot, vous pouvez changer IP pour recommencer un tour.
Un autre élément qui mérite d’attention est les captchas. Vous avez probablement rencontré des recaptchas pendant votre navigation sur Google qui vous demande à vérifier que vous êtes humain. Dans un grand projet d’extraction de données Google, cela apparaît certainement. Donc, il faut compter sur des solveurs de captchas pour s’assurer que l’extraction fonctionne bien.
Pas mal d’outils de scraping sont déjà équipés de roration IP et de solveurs de captcha, mais dans la plupart de temps, ce sont des services exclus aux utilisateurs payants ou il faut acheter des crédits pour les utiliser.
Utiliser Octoparse templates, des Google scrapers prêts-à-l’emploi
Octoparse template se confirme comme un choix incontournable pour le Google scraping. Octoparse template, ce qu’on dit modèle de web scraping en français, désigne des modèles pré-construits par l’équipe technique d’Octoparse. Ces modèles couvrent les sites les plus visités au monde et les sites spécialisés les plus populaires pour chaque catégorie, y compris réseaux sociaux, immobilier, emploi, annuaire, finance, et tant d’autres.
Vu que les modèles sont déjà prêts-à-l’emploi, c’est très très facile à les utiliser. Il suffit aux utilisateurs de saisir quelques mots-clés ou l’URL cible et de cliquer pour démarrer. Par conséquent, ces modèles sont surtout populaires parmi les non-codeurs. S’agissant Google scraping, on compte pour l’instant trois modèles différents : le premier demande à entrer les mots-clés, le deuxième exige les URLs cibles, le troisième extrait les cinq premiers résultats pour chaque mot-clé. C’est gratuit et accessible également aux utilisateurs gratuits. Si vous y êtes intéressé, je vous invite à télécharger Octoparse et l’installer pour découvrir les modèles dans le logiciel de bureau.
https://www.octoparse.fr/template/google-search-scraper
Créer un Google scraper sans codage pour récupérer les résultats de recherche
Oui, vous pouvez également essayer de créer un Google scraper par vous-même. Les modèles d’Octoparse se limitent à collecter les titres, les URLs, les meta-descriptions pour chaque résultat, donc, si vous avez besoin de plus d’info, comme le contenu complet de chaque résultat, vous pouvez créer un scraper personnalisé. Pour ce faire sans coder, Octoparse, Webscraper.io, Parsehub et d’autres outils de web scraping sont à votre choix. Et ici, on se concentre sur comment utiliser Octoparse pour créer un Google scraper.
En tant que outil de non-codage, Octoparse a pour but de rendre le web scraping accessible à tous pour que tout le monde, surtout ceux qui n’ont pas de connaissance technique mais ont besoin d’un grand nombre de données, puissent scraper les données sans codage.
La version gratuite d’Octoparse peut répondre à la plupart de vos besoins d’extraction de données, mais si vous recherchez des fonctionnalités avancées telles que le service cloud, l’extraction programmée, la rotation IP, et quelques autres, vous pouvez demander une version payante ou le service de données.
Dans la partie suivante, on va voir les étapes simples pour scraper Google avec la version gratuite d’Octoparse.
Étape 1 : Ouvrir Octoparse et entrer l’URL
Vous faites d’abord une recherche sur votre Google, et puis copier-coller l’URL dans Octoparse. J’entre dans Octoparse comme mot-clé “web scraping” et puis coller l’URL dans Octoparse qui va véfier ensuite si l’URL est valide ou pas.
Étape 2 – Configurer la pagination pour parcourir plusieurs pages
En général, vous avez besoin de données qui se répartissent sur plusieurs pages, donc, il faut encore configurer une pagination.
C’est simple. Il suffit de cliquer sur le bouton “next”, et puis sélectionner “Loop click next page” dans le panneau de conseils. Si nécessaire, vous pouvez définir le nombre de fois de pagination dans le panneau à droite en bas.
Étape 3 – Créer la boucle entre les résultats de recherche Google
Cliquer sur le premier résultat, et puis le deuxième. Vous verra que tous les résultats sont mis en vert, et puis sélectionner “Extract text of the selected element” dans le panneau de conseils. Une boucle est déjà faite. A ce temps, vous pouvez cliquer librement les éléments dans le premier résultat et puis sélectionner “Extract text of the selected element” pour extraire les données de chaque résultat.
Étape 4 – Extraire les données de la page de détail
En cliquant sur le titre du premier résultat, vous entrez dans la page de détail. Vous êtes libre de choisir les données qui vous intéressent, et puis “Extract data”. Vu que vous avez créé une boucle dans la troisième étape, le robot va cliquer l’une après l’autre les résultats et en extraire les données de la page de détails.
Étape 5 – Lancer le scraping et exporter les données
Après avoir vérifié toutes les informations, cliquez sur “Run” pour lancer le scraper. Ocroparse propose maintenant deux options pour exécuter les tâches. L’une est l’exécution sur l’appareil local. Vous devez garder votre appareil allumé et maintenir une excellente santé tout au long du processus de scraping pour vous assurer que tout se passe comme prévu. L’autre option est l’exécution sur les serveurs cloud d’Octoparse. Si vous l’optez, votre tâche sera envoyée sur des serveurs en nuage, qui pourront continuer à fonctionner pour vous 24 heures sur 24, que vous allumiez ou non votre appareil ou quel que soit l’état de vos appareils locaux.
Une fois la tâche terminée, vous pouvez exporter les données dans un fichier Excel, CSV ou JSON, voire dans une base de données via API.
N’est-ce pas assez facile ? Pour l’utiliser, vous pouvez d’abord le télécharger et l’installer sur votre appareil. Au cas où vous voudriez essayer le service Cloud, vous pouvez demander un essai gratuit de 14 jours pour un plan premium.
Les pages de résultats de Google sont d’une structure simple et identique, ce qui pousse beaucoup d’amateurs de web scraping à commencer leur première découverte de scraping à partir du scraping de Google. Maintenant, à vous d’en essayer !
Scraper les résultats de recherche Google avec Python
Si vous êtes à l’aise avec le codage, vous pouvez utiliser Python avec la Beautiful Soup Library pour collecter les résultats de recherche Google. Pour essayer cette méthode, vous devrez d’abord installer le langage Python sur votre ordinateur. En cas de besoin, vous pouvez consulter ce tutoriel sur l’installation de Python.
Et puis, vous devrez installer deux modules, bs4 et requests. bs4 (Beautiful Soup) est une bibliothèque python utilisée pour lire des données XML et HTML à partir du web. requests est un module qui permet d’envoyer des requêtes HTTP au site web. Vous pouvez installer les deux modules avec la commande suivante dans votre terminal ou invite de commande.
pip install bs4
pip install requests
Une fois les modules bs4 et requests installés, vous pouvez utiliser le code suivant pour extraire les données.
La valeur de la variable de texte dans le code ci-dessus peut être changé. Par exemple, remplacer text=”web scraping” par text=”octoparse”.
Profiter de l’API pour obtenir les résultats de recherche Google
Une autre méthode pour récupérer les résultats de recherche consiste à utiliser les outils de l’API. Les outils API sont des applications logicielles qui sont créées pour vous aider à extraire les résultats de recherche en temps réel. Ils peuvent gérer un énorme volume de demandes, et les réponses peuvent être structurées au format JSON, HTML ou CSV.
Ces outils API peuvent gérer les proxys, résoudre les captchas et analyser toutes sortes de riches données structurées à partir des recherches de Google. Avec API, vous obtiendrez des données avec tous les détails tels que le titre, le lien, la description, la date et la position SERP.
Certaines des API dsetinés à extraire les résultats de recherche les plus populaires sont :
En conclusion
Dans cet article, on a présenté quatres méthodes pratiques pour récupérer les résultats de recherche de Google. Octoparse template et configurer un scraper par lui-même à l’aide des outils de web scraping sont deux bons choix pour les non-codeurs. Les programmeurs ont plus de choix, comme Python ou API. J’espère que votre scraping de Google marche très bien ! Au cas où vous rencontriez des problèmes dans l’utilisation d’Octoparse, n’hésitez pas à contacter l’équipe de support.