Toutes les collections
Octoparse 101
Leçon 4 : Tester votre tâche
Leçon 4 : Tester votre tâche
Mis à jour il y a plus d’une semaine

Il est excité que vous soyez sur le point de terminer votre première tâche de scraping ? Il y a seulement une chose que vous devriez faire (ou mieux faire) avant d'exécuter votre tâche : testez votre flux de travail étape par étape pour vous assurer que tout fonctionne comme prévu. Avec un tel test, vous pouvez vérifier si vous devez ajuster vos paramètres de tâche pour obtenir les données correctement.

Pour illustrer le processus, nous continuerons à utiliser le site de test comme exemple: http://test-sites.octoparse.com/?product_cat=e-commerce-category-1).


Exécution-test du flux de travail

Il est à noter que les étapes du flux de travail doivent toujours être lues de haut en bas et de l'intérieur vers l'extérieur pour les étapes imbriquées.

Donc, par exemple, nous devrions tester les étapes dans cet ordre :

  1. "Aller à la page Web" → tester si la page Web se charge correctement

  2. "Pagination" → tester si le Bouton Page suivant est correctement localisé

  3. "Cliquer pour paginer" → tester si la page Web pagine correctement

  4. "Elément de la boucle" → tester si la liste des items est complète et correcte

  5. "Extraire les données" → tester si les données sont sélectionnées et extraites correctement

Pas toutes les tâches sont créées de la même manière, vous pouvez avoir une tâche complètement différente à tester, mais la méthodologie s'étend généralement à des tâches de toutes sortes. Allons-y !


1. Cliquer sur "Aller à la page Web"

Une fois que vous avez cliqué sur cet étape, Octoparse devrait charger la page Web dans le navigateur intégré. Si la page Web se charge bien, il n'y a pas grand-chose à ajuster; Mais, il vaut mieux que vous faites attention aux certaines choses.

1.1 Si la page Web se charge avec un défilement infini → vous voulez sélectionner "Faire défiler la page vers le bas après son chargement" et compléter les paramètres appropriés.

1.2 Si la page Web se charge plus de temps que d'habitude → vous voudrez peut-être augmenter le délai d'expiration de la page.


2. Cliquer sur la case "Pagination"

Afin que la pagination fonctionne de manière cohérente, nous devons vérifier deux choses.

  • Si le bouton de la Page Suivante / flèche est correctement localisé.

  • Si le processus de pagination fonctionne bien sur toutes les pages, c'est à dire, il doit paginer correctement de la page-1 à la page-2, de la page-2 à la page-3, de la page-3 à la page-4, etc.

Après avoir cliqué sur la boîte de pagination, accédez à l'élément en surbrillance sur la page Web et confirmez s'il s'agit du bon bouton Page Suivante. Si vous n'avez pas le bon bouton Suivant, vous devrez peut-être le corriger manuellement en modifiant le XPath correspondant.


3. Cliquer sur "Cliquer pour paginer"

Quand vous cliquez sur "Cliquer pour paginer", vous indiquez littéralement à Octoparse de cliquer sur le bouton Page Suivant défini à l'étape-2. Si les choses fonctionnent correctement, cela devrait passer de la page-1 à la page-2. Répétez ce processus en deux étapes (cliquez sur la case "Pagination" puis sur "Cliquez pour paginer") autant de fois que nécessaire pour vous assurer que la pagination fonctionne correctement sur toutes les pages séquentielles. Si la page Web ne pagine pas correctement sur l'une des pages, corrigez l'élément XPath à l'étape 2 et testez à nouveau.

4. Cliquer sur la case "Elément de boucle"

Tester la boucle est essentiellement pour confirmer si tous les éléments souhaités ont été sélectionnés correctement.

Une fois cliqué, accédez à la page Web dans le navigateur intégré et assurez-vous que tous les éléments dont vous avez besoin sont mis en surbrillance. Ou, vous pouvez également cliquer sur ouvrir l'icône de liste pour charger la liste des éléments et confirmer si la liste est complète.


5. Cliquer sur "Extraire les données"

Voici la dernière étape - vérifiez si les données sont extraites au besoin.

Une fois cliqué, vérifiez les données dans la section d'aperçu et confirmez si ce sont les données dont vous avez besoin.

6. Tester la tâche en le voir fonctionner

Après avoir parcouru chaque étape du flux de travail des tâches, c'est le moment idéal pour effectuer un test sur votre appareil local. Cliquer sur "Exécuter" et sélectionner Exécuter la tâche sur votre appareil.

Maintenant, regardez directement vos données extraites

  • Afficher le navigateur : vous pouvez cliquer sur ce bouton pour ouvrir un navigateur intégré et observer les sites web à ouvrir.

  • Info de la tâche : vous pouvez vérifier l'heure de début et de fin du processus en cours.

  • Pause : vous pouvez mettre le processus en pause pour contourner le login ou le captcha sur les pages web.

  • Données : cette liste vous donne un aperçu des données extraites.

  • Journaux : Il montre chaque action qu'Octoparse exécute pendant le scraping. Vous pouvez facilement trouver des erreurs dans le journal.

Avez-vous trouvé la réponse à votre question ?