logo
languageFRdown
menu

Octoparse 8.5 : améliorer le scraping local et plus encore

5 minutes de lecture

Voici la nouvelle : Octoparse 8.5 est maintenant disponible avec de nouvelles fonctionnalités et des améliorations majeures. Nous savons tous que nous pouvons compter sur le cloud scraping lorsqu’il s’agit d’effectuer un scraping rapide à grande échelle, mais cette fois, nous voulons rendre le scraping local tout aussi compétitif.  

Quelles sont les nouvelles fonctions ?

La vitesse de scraping, la facilité d’utilisation et le stockage sécurisé des données sont des éléments essentiels pour un outil de scraping web et ses utilisateurs. Octoparse 8.5 est développé pour répondre à ces besoins.

Pour cette mise à jour, nous nous concentrons sur Local Run/Local Scraping (par rapport au Cloud Scraping), la gestion des tâches du tableau de bord, et quelques optimisations comme le changement d’IP de Cloud pour une tâche et la conversion de fuseau horaire.

💡Tips :


1. Bien que les principales mises à jour soient couvertes dans cet article, il y a plus à explorer. Voici une version complète des mises à jour d’Octoparse 8.5 et des guides techniques.


2. Pourquoi nous concentrons-nous sur le scraping local ?

Le scraping Cloud est puissant mais pas toujours omnipotent. Rendre le scraping local tout aussi flexible et puissant pour compléter le cloud scraping. Ensemble, il fait d’Octoparse un outil de scraping web beaucoup plus puissant, et crée une expérience de scraping transparente pour les utilisateurs d’Octoparse comme vous.

Il y a donc une nouvelle version, qu’est-ce que j’y gagne ?

Si l’une des voix ci-dessous vous parle, vous trouverez les mises à jour d’Octoparse 8.5 extrêmement utiles.

♦ Le scraping dans le cloud est cool et je compte davantage sur les exécutions locales pour obtenir les données.
♦ J’ai besoin que le scraping local aille plus vite !
♦ Je veux que les données de l’exécution locale soient envoyées automatiquement dans ma base de données, tout comme les données de l’exécution cloud.
♦ J’ai besoin de sélectionner toutes mes workflows par groupe.

  ⇒ Vérifiez ces mises à jour

♦ Je suis frustré lorsque je ne sais pas pourquoi ma tâche ne fonctionne pas et que je n’ai aucune idée de la façon de la résoudre.
♦ J’aimerais pouvoir arrêter la tâche pendant un moment, juste pour vérifier les choses et voir si les données ont été extraites correctement.
♦ J’aimerais qu’il y ait un moyen de gérer mes tâches plus efficacement.

  ⇒ Vérifiez ces mises à jour

Cet article vous aidera à vous familiariser plus rapidement avec les nouvelles fonctionnalités de la version 8.5. C’est parti !

Journaux en direct pour dépanner les exécutions locales

Avec Octoparse 8.5, vous pouvez désormais

♦ Vérifier les journaux en temps réel pour les exécutions locales (pour l’inspection des tâches)
♦ Mettre en pause et reprendre une exécution locale si nécessaire

Que vous soyez nouveau à Octopasre ou que vous ayez déjà utilisé le logiciel pendant un certain temps, il est toujours difficile de savoir pourquoi votre tâche ne fonctionne pas comme prévu. Et sans en connaître les causes, la résolution du problème peut être un cauchemar. Avec la nouvelle version 8.5 d’Octoparse, vous disposez désormais d’un journal des erreurs qui vous indique en face de vous ce qui n’a pas fonctionné et où cela a coincé, de sorte que la résolution du problème devient beaucoup plus facile car le problème est identifié. Plus besoin de deviner. 

Si votre tâche échoue, cochez la case “Show error logs only” (afficher uniquement les journaux d’erreurs). Les journaux vous diront exactement pourquoi le scraper se bloque et ce qui ne va pas pendant le processus de scrapping. Les journaux d’erreurs donnent une réponse directe à la façon dont vous pouvez réparer votre scraper et le faire fonctionner à nouveau.

Maintenant vous savez quel est le problème. Il ne vous reste plus qu’à l’éliminer !


Voici quelques erreurs que vous pouvez rencontrer et quelques approches pour les résoudre.

⋅ Un certain élément n’a pas été trouvé – il est temps de vérifier votre Xpath !
⋅ Impossible de charger la page Web – vérifiez si quelque chose ne va pas avec votre réseau ou votre IP ?
⋅ AJAX timeout – augmentez votre limite de timeout

💡Les journaux ne seront plus accessibles si vous fermez la fenêtre d’exécution locale une fois la tâche terminée. Si vous avez besoin de relire les journaux ou les erreurs, n’oubliez pas de les exporter.

Mode Boost pour des exécutions locales jusqu’à 3 fois plus rapides

Oui, le cloud scraping est rapide et efficace. Pourtant, avec le “Boost Mode” pour l’extraction locale, la vitesse n’est plus le privilège du cloud scraping ! Octoparse 8.5 introduit le “Boost Mode” pour l’extraction locale qui permet une extraction jusqu’à 3 fois plus rapide car la tâche se divise en plusieurs sous-tâches qui s’exécutent simultanément. En conséquence, vous obtiendrez vos données beaucoup plus rapidement. 

Il y a quelques remarques à faire concernant le “mode Boost”.

♦ Le mode Boost ne s’applique qu’aux tâches construites avec la boucle “splitable”, comme une liste d’URL, une liste d’éléments de texte ou une liste fixe d’éléments de page.


♦ Le nombre exact de tâches que vous pouvez exécuter sur votre ordinateur en mode Boost dépend fortement de la capacité de votre appareil. 

Si vous utilisez l’extraction locale, le “mode Boost” peut vous faire passer à un niveau supérieur en matière de scraping web. Dans une certaine mesure, il réduit la distance entre l’exécution locale et l’exécution cloud en rendant l’exécution locale aussi rapide et extensible que l’exécution cloud.

Lire le tuto sur Quelle est la différence entre le mode standard et le mode Boost ?

Sauvegarde automatique des données locales sur le Cloud

Avec Octoparse 8.5, vous pouvez désormais

♦ Accéder aux données historiques de chaque exécution sur votre appareil local.
♦ Sauvegarder automatiquement les données d’exécution locales sur le cloud

Avec la version précédente, Octoparse ne conservait que le dernier ensemble de données pour toute exécution locale. Avec la mise en place de l’historique des exécutions locales, vous pouvez désormais accéder à tous les lots de données que vous avez extraits avec la même tâche. Par exemple, si vous exécutez la tâche A quatre fois par semaine, les quatre lots de données seront stockés de manière indépendante et accessibles dans votre compte. 

En outre, vous pouvez activer “Auto Backup” afin qu’Octoparse stocke vos données dans le Cloud après chaque exécution. Ceci est extrêmement utile si vous utilisez une API pour connecter des données à votre base de données. De cette façon, vous serez en mesure de traiter non seulement les données exécutées en mode cloud mais aussi les données exécutées en mode local de votre côté.

💡Le Backup automatique fonctionne uniquement les données extraites après l’activation de “” Auto Backup. Si une exécution est terminée et que des données n’ont pas encore été sauvegardé sur le Cloud, vous pouvez le faire manuellement.

Gérez vos tâches

Cette mise à jour particulière du tableau de bord vise à réduire le travail répétitif et à faciliter la gestion des tâches, notamment pour ceux qui ont une longue liste de tâches à accomplir.

Avec Octoparse 8.5, vous pouvez désormais :

♦ Gérer plusieurs tâches à la fois à l’aide d’actions par lots, telles que “duplicate task”, “stop cloud runs”, “schedule local runs”, etc.


♦ Trier/filtrer vos tâches plus efficacement en utilisant les nouveaux paramètres inclus dans les filtres. Vous pouvez même enregistrer les paramètres des filtres.

💡Bien que les principales mises à jour soient incluses dans cet article, il y en a d’autres à explorer. Voici une version complète des mises à jour d’Octoparse 8.5 ainsi que des guides techniques.

Résumé et tuto supplémentaire

En outre, il y a encore des améliorations à découvrir lorsque vous utiliserez vous-même la toute nouvelle version 8.5. Si vous avez des problèmes ou des commentaires sur Octoparse 8.5 et que vous souhaitez nous en parler, n’hésitez pas à nous contacter à l’adresse e-mail support@octoparse.com.

D’autres tutoriels étape par étape (pour les mises à jour d’Octoparse 8.5) seront disponibles :

Changer l’IP Cloud pour une tâche (Version 8.5)

Comment convertir le fuseau horaire du champ de l’heure actuelle ? (Version 8.5)

Obtenir les données en quelques clics
Extraire facilement les données depuis tous les sites sans coder
Télécharger

Articles populaires

Explorer les sujets

Commencer votre découverte de Octoparse dès maintenant

Télécharger

Lecture conseillée