Que vous soyez “digital native” ou immigrant du numérique, vous connaissez probablement les fonctions de base d’Excel. En tant que outil de visualisation de base, Excel permet à accomplir des tâches simples telles que le tri, le filtrage, la mise en évidence de données, la réalisation de graphiques, etc. Quand il s’agit de données structurées, nous pouvons même effectuer des analyses de données avancées en utilisant des modèles de pivot et de régression dans Excel.
Parfois, on voudrais extraire des données depuis les sites Web et puis les mettre dans Excel pour réaliser des analyses et des visualisations. Un des cas les plus fréquent c’est de récupérer les prix des produits depuis des sites d’e-commerce.
Le problème est là : comment extraire les données d’une page Web vers Excel ?
Le copier-coller manuel ? Cela serait extrêmement fastidieux. Dans cet article, je vais vous introduire plusieurs façons pour récupérer les données Web et les mettre dans Excel. Je suis sûre que ces méthodes sont une économie de temps et d’énergie.
Comment extraire les données d’une page Web vers Excel ?
Il existe de nombreuses façons de récupérer les données des sites Web : utiliser les langages de programmation pour faire le web scraping, profiter des outils nocode, utiliser directement Excel pour ce faire, etc.
Oui. Excel, lui-même, est un outil puissant dans le domaine de gestion de données et de visualisation de données.
Tout d’abord, voyons comment Excel permet d’obtenir les données à partir des pages Web. En même temps, j’ose parler un peu des limites dans ce méthode.
Obtenir des données Web à l’aide de requêtes Web Excel
Les requêtes Web Excel sont utilisées pour récupérer rapidement les données d’une page Web standard vers une feuille de calcul Excel. Il peut détecter automatiquement les tableaux intégrés dans le HTML de la page Web. Les requêtes peuvent également être utiles dans les situations où une connexion ODBC (Open Database Connectivity) standard est difficile à créer ou à gérer.
Vous pouvez directement extraire les données d’un tableau de n’importe quel site Web vers Excel à l’aide de requêtes Web Excel.
Le processus se résume à plusieurs étapes simples (consultez cet article) :
- Accéder aux données> Obtenir des données externes> À partir du Web
- Une fenêtre de navigateur nommée « Nouvelle requête Web » apparaîtra
- Dans la barre d’adresse, écrire l’adresse Web cible
(source : excel-university.com)
- La page se chargera et affichera des icônes jaunes en regard des données / tableaux.
- Sélectionner celui qui convient à votre besoin
- Appuyer sur le bouton Importer.
Vous avez maintenant les données Web dans la feuille de calcul Excel – parfaitement disposées en lignes et en colonnes à votre guise.
(source : excel-university.com)
Obtenir des données Web à l’aide d’Excel VBA
La plupart d’entre nous utiliseraient largement les formules dans Excel (par exemple =avg (…), =sum (…), =if (…), etc.), mais il se peut qu’on soit moins familier avec le langage intégré – Visual Basic pour Application aka VBA. Il est communément appelé “Macros” et ces fichiers Excel sont enregistrés au format **. Xlsm.
Avant de l’utiliser, vous devez d’abord activer l’onglet Développeur dans le Ribbon (clic droit sur Fichier -> Personnaliser le Ribbon -> cocher l’onglet Développeur). Ensuite, configurez votre mise en page. Dans cette interface de développeur, vous pouvez écrire du code VBA attaché à divers événements. Cliquez ici pour démarrer avec VBA dans Excel 2010.
Utiliser Excel VBA va être un peu technique – ce n’est pas très convivial pour les non-programmeurs. VBA fonctionne en exécutant des macros, des procédures étape par étape écrites dans Excel Visual Basic. Pour récupérer des données de sites Web vers Excel à l’aide de VBA, nous devons créer ou obtenir un script VBA pour envoyer des requêtes à des pages Web et obtenir des données renvoyées à partir de ces pages Web. Il est courant d’utiliser VBA avec XMLHTTP et des expressions régulières pour analyser les pages Web. Pour Windows, vous pouvez utiliser VBA avec WinHTTP ou InternetExplorer pour récupérer les données des sites Web vers Excel.
Après un peu de patience et de pratique, vous trouverez intéressant d’apprendre à écrire du code Excel VBA et d’acquérir quelques connaissances en HTML pour faciliter et rendre plus efficace l’automatisation des tâches répétitives. Il existe de nombreux documents et forums qui vous permettront d’apprendre à écrire du code VBA.
Seulement, il y a des limites inévitables dans ce méthode d’extraire des données vers Excel depuis des sites Web :
- Limité aux données de tableau
Excel ne peut que aider à récupérer les données dans les tableaux et si on veut obtenir celles à l’extérieur des tableaux, il faut trouver une autre solution. Donc ces deux méthodes présentent des limites quand on veut extraire les textes, les prix des produits e-commerce, les liens, etc.
- Limité à un petit nombre de données
C’est évident que Excel est excellent pour récupérer les données de tableau sur des pages Web mais il faut comprendre qu’il ne s’agit pas d’un outil de web scraping. C’est pourquoi les requêtes d’Excel ne peuvent pas répondre aux besoins d’une grande quantité de données pour les entreprises.
- Limité à la récupération des données de la page actuelle
On sait que souvent les données voulues se cachent après une pagination, Ajax, ou on veut parfois collecter les données de plusieurs pages. Dans ces cas-là, Excel n’aide pas trop.
- A court des fonctions importantes
Dans le domaine de collection de données, le service Cloud, la nettoyage, la déduplication sont parmi les fonctions indispensables dans la plupart des cas. Excel manque des fonctions importantes pour éliminer les copies excessives de données et réduire considérablement les besoins en capacité de stockage.
Outils de web scraping pour extraire les données vers Excel
Pour ceux qui recherchent un outil facile et conviviale pour extraire les données des pages vers Excel et ne veulent pas configurer le code VBA vous-même, il est évidemment un bon choix d’utiliser des outils de Web scraping et voilà une liste de 30 outils de web scraping. Je vous recommende fortement Octoparse qui sera un outil à la hauteur des limites de Excel dans l’extraction de données de sites Web.
Ayant comme son slogan « extraire les données Web en 3 étapes » et « Pointez, cliquez et extrayez. Tout cela sans une seule ligne de code ! », Octoparse propose à ses utilisateurs une plateforme très conviviale et puissante. L’auto-détection est toujours à votre service en détectant automatiquement les données de liste, les boutons “Page suivante”, les boutons “Charger plus” et le défilement d’une page vers le bas, puis configurer automatiquement un flux de travail d’extraction de données. . Ne vous inquiétez pas car Octoparse prépare de riches tutoriels pour vous et aussi le support génial. Il s’agit de quelque chose de satisfaisant et de fiable de récupérer un grand nombre de données par lui-même.
Chaque outil de Web scraping a ses avantages et ses inconvénients et vous pouvez choisir celui qui correspond le mieux à vos besoins.
Voilà un guide étapa par étape sur comment extraire les résultats de recherche depuis Google.
Externaliser votre projet Web Scraping
Si le temps vous est le plus précieux et que vous souhaitiez vous concentrer sur vos activités principales, il est la meilleure option de confier le travail de collection de données à une équipe professionnelle qui possède de l’expérience et de l’expertise.
Octoparse qu’on vient de mentionner offre aussi des services de données dont l’objectif est de vous aider à obtenir des données de sites Web de manière appropriée selon vos besoins et à vous fournir des données structurées dans une feuille Excel ou dans n’importe quel format dont vous avez besoin.
En conclusion
On vient d’introduire 5 méthodes pour récupérer les données depuis des sites Web vers Excel. Quand les deux méthodes réalisés à l’intérieur d’Excel semble plus pratique, ils présentent des limites dans le nombre et la variété des données extraites. Utiliser un outil de web scraping nocode ne manque d’être une bonne solution pour mener une collection de données auprès des non-informaticiens. En outre, il y a encore le service de données à votre choix au cas où vous préférez concentrer vos efforts sur les choses les plus importantes.
Pour trouver un guide étape par étape d’extraire les données depuis un certain site vers Excel, vous pouvez consulter d’autres articles blogs d’Octoparse.