Toutes les collections
Utiliser Octoparse
Comprendre comment les actions fonctionnent ensemble dans un workflow
Comprendre comment les actions fonctionnent ensemble dans un workflow

Dans cet article, nous apprendrons en profondeur comment Octoparse fonctionne pour extraire des données de toutes les pages Web.

Mis à jour il y a plus d’une semaine

Après avoir suivi les leçons d'introduction, vous avez sûrement saisi les bases d'Octoparse et réussi à créer quelques tâches en vous-même. Dans cet article, nous apprendrons en profondeur comment Octoparse fonctionne pour extraire des données de toutes les pages Web, et plus important encore, comment les différentes actions fonctionnent ensemble dans un flux de travail. Avoir une bonne compréhension du fonctionnement d'Octoparse constitue vraiment la base pour réussir à créer des tâches de grattage plus complexes.


1. Comment Octoparse fonctionne pour extraire des données Web

1.1 Octoparse simule les comportements humains de navigation

Octoparse fonctionne en simulant les comportements humains de navigation dans son navigateur intégré. Des actions comme ouvrir des pages Web, cliquer sur des éléments de page, cliquer sur le bouton de la page suivante ou faire défiler la page vers le bas peuvent toutes être effectuées dans Octoparse. Le processus de grattage d'Octoparse est identique à la façon que vous adopter tous les jours pour accéder aux données Web dans les navigateurs ordinaires.

1.2 Octoparse récupère automatiquement les données via le workflow

Quand vous créez une tâche de grattage dans Octoparse, vous créez en effet un flux de travail de grattage qui peut être traduit en une série d'instructions à suivre par Octoparse. Ce flux de travail est généré automatiquement par Octoparse pendant que vous interagissez avec le navigateur intégré. Dans certains cas, vous n'auvez pas besoin de modifier le workflow créé automatiquement, mais dans d'autres cas, vous devez créer/dépanner le flux de travail manuellement si les choses ne fonctionnent pas comme prévu. Il est donc fortement recommandé de maîtriser les bases du flux de travail afin de pouvoir gratter les données plus précisément.


2. Comprendre le workflow

Un workflow consiste en une liste d'actions qui sont rassemblées par un ordre spécifique, dont l'objectif est de récupérer les données Web cibles.

Veuillez noter que vous devez toujours lire les étapes du workflow de haut en bas, et de l'intérieur vers l'extérieur. Voyons quelques exemples.

Exemple 1 - Extraire à partir d'une liste d'éléments pour obtenir des données

Étape 1: Aller à la page Web - ouvrir la page Web cible

Étape 2: Pagination - localiser le bouton de la page suivante sur la page (vous êtes maintenant sur la première page)

Étape 3: Élément de Boucle - localiser la liste d'éléments sur la page

Étape 4: Extraire les Données - extraire les données à partir de la liste d'éléments

Étape 5: Cliquer pour Paginer - cliquer sur le bouton de la page suivante pour aller à la page 2

Étape 6: Continuer à extraire les données de la boucle et cliquer sur le bouton de la page suivante jusqu'à ce qu'Octoparse atteigne la dernière page

Étape 7: Pas de bouton de page suivante trouvée sur la dernière page, le workflow se termine

Exemple 2 - Cliquer sur une liste d'éléments sur la page Web et extraire les données de la page de détail

Étape 1: Aller à la page Web - ouvrir la page Web cible

Étape 2: Pagination - localiser le bouton de la page suivante sur la page (vous êtes maintenant sur la première page)

Étape 3: Élément de Boucle - localiser la liste d'éléments sur la page

Étape 4: Cliquer sur les Éléments - cliquer sur les éléments de boucle et accéder à la page de détails

Étape 5: Extraire les Données - extraire les données à partir de pages de détails

Étape 6: Cliquer pour Paginer - cliquer sur le bouton de la page suivante pour aller à la page 2

Étape 7: Continuer à cliquer sur les éléments de boucle, extraire les données de la page de détail et cliquer sur le bouton de la page suivante jusqu'à ce qu'Octoparse atteigne la dernière page

Étape 8: Pas de bouton de page suivante trouvée sur la dernière page, le workflow se termine

Exemple 3 - Charger plus d'éléments en cliquant sur le bouton "Charger Plus" et extraire les données de la liste d'éléments

Étape 1: Aller à la page Web - ouvrir la page Web cible

Étape 2: Pagination - localiser le bouton "Charger Plus" sur la page

Étape 3: Cliquer pour Paginer - cliquer sur le bouton "Charger Plus" pour charger plus d'éléments sur la page

Étape 4: Continuer à cliquer sur le bouton "Charger plus" jusqu'à ce qu'il disparaisse

Étape 5: Élément de Boucle - localiser la liste d'éléments sur la page

Étape 6: Extraire les Données - extraire les données à partir de pages de détails

3. Tester le flux de travail

Il est important de tester le workflow étape par étape avant d'exécuter la tâche. Lorsque vous cliquez sur une étape du flux de travail, Octoparse effectuera l'action dans le navigateur intégré pour vous aider à tester si l'action fonctionne comme prévu ou pas, et vous pouvez la modifier s'il y a de problèmes. Par exemple, lorsque vous cliquez sur "Aller à la page Web", Octoparse chargera automatiquement la page Web dans le navigateur intégré.

Tips!

  • Il n'y a pas de méthodes fixes pour créer un flux de travail. Vous pouvez ajouter toutes les actions que vous désirez tant qu'elles fonctionnent logiquement ensemble.

  • Vous pouvez utiliser plusieurs actions de clic ou des éléments de boucle différents pour extraire des données de pages de différents niveaux. Par exemple, il y a des pages de liste et des pages de produit pour les sites Web d'annuaire.

  • Vous pouvez faire glisser et déplacer une action à un endroit que vous désirez facilement.

Avez-vous trouvé la réponse à votre question ?