Après avoir suivi les leçons d'introduction, vous avez sûrement saisi les bases d'Octoparse et réussi à créer quelques tâches en vous-même. Dans cet article, nous apprendrons en profondeur comment Octoparse fonctionne pour extraire des données de toutes les pages Web, et plus important encore, comment les différentes actions fonctionnent ensemble dans un flux de travail. Avoir une bonne compréhension du fonctionnement d'Octoparse constitue vraiment la base pour réussir à créer des tâches de grattage plus complexes.
1. Comment Octoparse fonctionne pour extraire des données Web
1.1 Octoparse simule les comportements humains de navigation
Octoparse fonctionne en simulant les comportements humains de navigation dans son navigateur intégré. Des actions comme ouvrir des pages Web, cliquer sur des éléments de page, cliquer sur le bouton de la page suivante ou faire défiler la page vers le bas peuvent toutes être effectuées dans Octoparse. Le processus de grattage d'Octoparse est identique à la façon que vous adopter tous les jours pour accéder aux données Web dans les navigateurs ordinaires.
1.2 Octoparse récupère automatiquement les données via le workflow
Quand vous créez une tâche de grattage dans Octoparse, vous créez en effet un flux de travail de grattage qui peut être traduit en une série d'instructions à suivre par Octoparse. Ce flux de travail est généré automatiquement par Octoparse pendant que vous interagissez avec le navigateur intégré. Dans certains cas, vous n'auvez pas besoin de modifier le workflow créé automatiquement, mais dans d'autres cas, vous devez créer/dépanner le flux de travail manuellement si les choses ne fonctionnent pas comme prévu. Il est donc fortement recommandé de maîtriser les bases du flux de travail afin de pouvoir gratter les données plus précisément.
2. Comprendre le workflow
Un workflow consiste en une liste d'actions qui sont rassemblées par un ordre spécifique, dont l'objectif est de récupérer les données Web cibles.
Veuillez noter que vous devez toujours lire les étapes du workflow de haut en bas, et de l'intérieur vers l'extérieur. Voyons quelques exemples.
Exemple 1 - Extraire à partir d'une liste d'éléments pour obtenir des données
Étape 1: Aller à la page Web - ouvrir la page Web cible
Étape 2: Pagination - localiser le bouton de la page suivante sur la page (vous êtes maintenant sur la première page)
Étape 3: Élément de Boucle - localiser la liste d'éléments sur la page
Étape 4: Extraire les Données - extraire les données à partir de la liste d'éléments
Étape 5: Cliquer pour Paginer - cliquer sur le bouton de la page suivante pour aller à la page 2
Étape 6: Continuer à extraire les données de la boucle et cliquer sur le bouton de la page suivante jusqu'à ce qu'Octoparse atteigne la dernière page
Étape 7: Pas de bouton de page suivante trouvée sur la dernière page, le workflow se termine
Exemple 2 - Cliquer sur une liste d'éléments sur la page Web et extraire les données de la page de détail
Étape 1: Aller à la page Web - ouvrir la page Web cible
Étape 2: Pagination - localiser le bouton de la page suivante sur la page (vous êtes maintenant sur la première page)
Étape 3: Élément de Boucle - localiser la liste d'éléments sur la page
Étape 4: Cliquer sur les Éléments - cliquer sur les éléments de boucle et accéder à la page de détails
Étape 5: Extraire les Données - extraire les données à partir de pages de détails
Étape 6: Cliquer pour Paginer - cliquer sur le bouton de la page suivante pour aller à la page 2
Étape 7: Continuer à cliquer sur les éléments de boucle, extraire les données de la page de détail et cliquer sur le bouton de la page suivante jusqu'à ce qu'Octoparse atteigne la dernière page
Étape 8: Pas de bouton de page suivante trouvée sur la dernière page, le workflow se termine
Exemple 3 - Charger plus d'éléments en cliquant sur le bouton "Charger Plus" et extraire les données de la liste d'éléments
Étape 1: Aller à la page Web - ouvrir la page Web cible
Étape 2: Pagination - localiser le bouton "Charger Plus" sur la page
Étape 3: Cliquer pour Paginer - cliquer sur le bouton "Charger Plus" pour charger plus d'éléments sur la page
Étape 4: Continuer à cliquer sur le bouton "Charger plus" jusqu'à ce qu'il disparaisse
Étape 5: Élément de Boucle - localiser la liste d'éléments sur la page
Étape 6: Extraire les Données - extraire les données à partir de pages de détails
3. Tester le flux de travail
Il est important de tester le workflow étape par étape avant d'exécuter la tâche. Lorsque vous cliquez sur une étape du flux de travail, Octoparse effectuera l'action dans le navigateur intégré pour vous aider à tester si l'action fonctionne comme prévu ou pas, et vous pouvez la modifier s'il y a de problèmes. Par exemple, lorsque vous cliquez sur "Aller à la page Web", Octoparse chargera automatiquement la page Web dans le navigateur intégré.
Tips!
|