À propos d’Octoparse
Octoparse est un logiciel moderne d’extraction de données Web visuelles. Les utilisateurs expérimentés et inexpérimentés n’auront aucune difficulté pour extraire en masse des informations à partir de sites Web. Pour la plupart des tâches de grattage, aucun codage n’est nécessaire.
Octoparse prend en charge Windows XP, 7, 8, 10. Il fonctionne bien pour les sites Web statiques et dynamiques, y compris les pages Web utilisant Ajax. Pour exporter les données, il existe différents formats de données de votre choix tels que CSV, EXCEL, HTML, TXT et bases de données (MySQL, SQL Server et Oracle via API). Octoparse simule une opération humaine pour interagir avec les pages Web.
On trouve des fonctionnalités remarquables telles que le remplissage de formulaires, la saisie de terme de recherche dans les zones de texte, etc., facilitent l’extraction de données Web. Vous pouvez exécuter votre projet d’extraction sur vos machines locales (Extraction locale) ou sur le cloud (Extraction Cloud).
Certains de nos clients utilisent le service cloud d’Octoparse, qui peut extraire et stocker de grandes quantités de données pour répondre aux besoins d’extraction à grande échelle.
Les éditions gratuites et payantes d’Octoparse partagent certaines fonctionnalité communes. Les éditions payantes permettent aux utilisateurs d’extraire d’énormes quantités de données 24h / 24 et 7j / 7 à l’aide du service cloud d’Octoparse. Les prix de chaque plan peuvent être consultés ici.
Flux de travail
Octoparse fournit un panneau de commande visuel, qui est très convivial et simple. Il simule le comportement de navigation humaine sur le Web, comme l’ouverture d’une page Web, la connexion à un compte, entrez le texte, pointer et cliquer sur l’élément Web, etc. Cliquez simplement sur les informations du site Web dans le navigateur intégré et lancez l’extraction, et vous obtiendrez les données structurées dont vous avez besoin.
Il existe 2 modes d’extraction (Modèle de Tâche et Mode Avancé) dans L’Octoparse. Il ne vous faut qu’une demi-heure pour démarrer avec Octoparse, et les personnes qui ont de l’expérience en programmation passeraient moins de temps à se familiariser avec Octoparse.
Extraction Cloud
Scraper le Web à grande échelle de façon simultanée est possible grâce au calcul distribué qui est la fonctionnalité la plus puissante d’Octoparse. Après avoir téléchargé votre projet de scraping dans le cloud, vous pourrez choisir d’exécuter l’extraction simultanée en utilisant de nombreux serveurs cloud. Si vous avez besoin de scraper 10 000 pages Web en peu de temps, le service cloud d’Octoparse est la solution idéale. Par contre,l’édition Standard est limitée à seulement 10 serveurs cloud,le processus d’extraction de données reste toutefois rapide. Vous pouvez définir un calendrier pour extraire régulièrement les données.
Mode avancé
Pour le mode avancé, l’outil fournit un riche ensemble d’outils. Ces outils comprennent:
# RegEx Tool#
# Xpath Tool #
# Outil d’exportation Auto de base de données #
# API #
…
Pour améliorer l’expérience utilisateur, Octoparse fournit le générateur RegEx intégré. Le raffinage des champs récupérés peut vous obliger à utiliser RegEx, donc cela convient parfaitement à la fois à la création et à la vérification des RegExes.
API
L’API Octoparse facilite la connexion de votre système à de nombreuses données en temps réel. Vous pouvez soit importer les données Octoparse dans votre propre base de données, soit utiliser notre API pour demander l’accès aux données de votre propre compte. Configurez simplement la règle pour votre tâche et les serveurs cloud Octoparse feront le reste. Les données sont renvoyées au format XML.
Pour utiliser l’API Octoparse, vous devrez détenir un compte Standard ou Professionnel avec au moins une tâche exécutable configurée. Documentation : https://openapi.octoparse.com/fr-FR
Pour utiliser l’API Avancée Octoparse, vous devrez détenir un compte Professionnel avec au moins une tâche exécutable configurée. Documentation: http://advancedapi.octoparse.com/help
Proxies
Cela vous rend-il fou que votre adresse IP soit interdite et que vous ne puissiez pas accéder à un site Web parce que vous le scrapez fréquemment? Cela se produit en particulier lorsque vous extrayez des données d’annuaires professionnels qui appliquent des mesures anti-bot strictes. Octoparse vous permet de scraper ces sites Web en faisant tourner des serveurs proxy HTTP anonymes. Dans Extraction Cloud,Octoparse applique de nombreux proxys tiers pour la rotation IP automatique. Pour Extraction Locale, vous pouvez ajouter manuellement une liste d’adresses proxy externes et les configurer pour une rotation automatique. Pour ce faire, vous pouvez consulter cet article pour savoir comment inclure la rotation IP dans un projet de scraping.
La rotation des adresses IP s’effectue dans un certain intervalle de temps que vous paramétrez. Ainsi, vous pourrez extraire les données du site Web sans prendre le risque de voir vos adresses IP interdites.
Regardez cette vidéo pour savoir comment Octoparse vous empêche d’être black listé ou bloqué lors du scraping de sites Web.