Avez-vous déjà pensé que vous pourriez gagner de l’argent en sachant combien de restaurants il y a dans un kilomètre carré ? Il n’y a pas de repas gratuit, cependant, si vous savez comment utiliser Google Maps, vous pouvez extraire et collecter les GPS des restaurants et les stocker dans votre propre base de données. Avec ces informations en main et quelques calculs mathématiques, vous êtes prêt à créer un service en ligne de big data.
Dans cet article, je vais vous montrer comment saisir les coordonées géographiques sur Google Maps rapidement, simplement et facilement. Et surtout, c’est pour extraire par lot les coordonnées gps d’un grand nombre de lieux en moins de dix minutes.
Où trouver les coordonnées géographiques ?
Il est important de savoir avant toute chose que les coordonnées géographiques sont en fait cachées dans les URLs. Dans ce cas, il nous suffit d’extraire l’URL et puis mettre en service une expression régulière pour obtenir le texte exacte que nous recherchons. Prenons l’exemple le Musée du Louvre.
Premièrement, ouvrez Google Maps dans votre navigateur et tapez Musée du Louvre dans la barre de recherche.
Après le chargement de la page, nous pouvons repérer les coordonnées géographiques dans l’URL. Les coordonnées sont situées derrière le signe «@» et avant la chaîne de mots de «z/data».
Et maintenant, nous devons récupérer tous les URLs des lieux dont nous souhaitons obtenir les coordonnées géographiques. L’outil que nous utilisons est Octoparse. Vous pouvez utiliser l’outil qui vous convient le mieux. J’ai fait ce choix parce que Octoparse, l’emporte sur tous les autres outils de web scraping par son interface utilisateur intuitive et facile, surtout pour les débutants. Il serait préférable que vous l’ayez déjà sur votre ordinateur, ou vous pouvez le télécharger ici.
Comment extraire les coordonnées géographiques ?
1. Ouvrir Octoparse pour construire une tâche. Il vous faut un logiciel installé sur votre ordinateur et un compte gratuit ou premium d’Octoparse.
2. Faire une recherche de Google Maps dans votre ordinateur.
3. Entrer l’URL dans la barre de recherche de la page d’accueil d’Octoparse.
Lien d’exemple : ayant pour mot-clé salon de coiffure à proximité de Paris
4. Cliquer sur le bouton ” Start ” pour continuer et il est maintenant temps de configurer la tâche.
5. Cliquer sur le premier résultat et puis le deuxième. Tous les autres résultats d’une structure similaire seront être identifiés et mis en vert. Sélectionner ” Loop Click each URL ” pour créer une boucle.
6. Un pop-up va apparaître pour vous guider à la configuration de la pagination. Étant donné que les résultats de Google Maps se chargent sous le mode de “défilement infini”, vous cochez “Yes” >> “infinite scrolling” >> définissez le nombre de fois de répétition, par exemple 100.
7. Cliquer sur le titre, et puis sélectionner “Click URL” pour entrer dans la page de détail. Attention de cocher ” Load with AJAX ” dans la case à droite en bas.
8. Cliquer sur le titre et sélectionner “Text” dans la catégorie de “Extract” pour récupérer le titre du salon de coiffure.
9. Dans le champ d’extraction, cliquer sur le bouton indiqué ici-bas pour faire apparaître le menu déroulant, sélectionner ” Page-level data ” et choisir ” Page URL “.
10. Maintenant, nous avons réusssi à extraire l’URL de la page Web. C’est formidable ! Bien sûr, nous devons modifier le formulaire URL pour couper l’excès et obtenir les coordonnées géographiques exactes.
11. Déplacer le curseur sur le champ de Page_URL, vous verrez trois points. Cliquer desssus et puis sélectionner ” Clean data “.
12. Cela vous amène à une liste de fonctions pour le nettoyage des données. Dans ce cas, nous sélectionnons ” Match with regular expression “.
13. Vous devriez arriver ici. Cela vous permet de modifier les données comme vous le souhaitez en écrivant une expression régulière. Une expression régulière est une chaîne de texte spéciale permettant de décrire un modèle de recherche. Étant donné que la plupart des gens ont des difficultés à écrire une expression régulière, nous pouvons utiliser l’outil RegEx intégré dans l’Octoparse. Cliquer sur le bouton ” Try the RegEx Tool “. Simplement décider que les coordonnées géographiques commencent avec «/@» et finissent par «z/data» et l’outil crée l’expression régulière pour vous. Et c’est fait !
14. Exécuter la tâche
Voilà, c’est fait ! Vous avez terminé. Il est temps d’exécuter le crawler et de voir s’il fonctionne. Voilà les données que j’ai obtenues en plus de 1 minutes. Vous pouvez les exporter vers des dossiers locaux ou base de données via API.
Si vous avez des questions sur la mise en place d’un crawler, n’hésitez pas à nous contacter.
🎁 Si vous recherchez un méthode plus facile pour ce faire, vous pouvez essayer le modèle d’Octoparse. Il s’agit d’un robot de web scraping développé par l’équipe technique, avec lequel il suffit aux utilisateurs de saisir les mots-clé pour obtenir les coordonnés géographiques et d’autres informations importantes des boutiques depuis Google Maps.
https://www.octoparse.fr/template/google-maps-scraper-listing-page-by-keyword
En conclusion
Octoparse est conçu de manière professionnelle pour vous accompagner tout au long de votre parcours, du débutant à l’expert en web scraping. Nous sommes là pour vous aider à devenir un maître dans l’art du web scraping.
En plus des coordonnées géographiques, l’Octoparse vous permet de récupérer toutes autres données apparues sur Google Maps et de plus, des modèles d’extraction sont accessibles pour vous faciliter le travail. Allez découvrir !