Toutes les collections
Utiliser Octoparse
Cliquer sur chaque lien d'une liste pour extraire les données des nouvelles pages
Cliquer sur chaque lien d'une liste pour extraire les données des nouvelles pages
Mis à jour il y a plus d’une semaine

Cliquer sur chaque lien dans une liste pour extraire des données des nouvelles pages, c'est un scénario fréquent dans le web scraping.

Ce tutoriel vous montrera comment cliquer à travers une page de résultats vers une page de détail pour obtenir les données dont vous avez besoin. Cette méthode est particulièrement utile pour extraire des données de sites de e-commerce (Amazon, eBay, etc.) et d'annuaires professionnels (Yelp, PagesJaunes, etc.)


Vous aurez peut-être besoin de ce lien pour suivre :

1. Utiliser la Détection automatique pour créer le flux de travail

  • Une fois que vous avez créé une nouvelle tâche en utilisant l'exemple d'URL (https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008), sélectionnez Autodétection des données de la page Web. Octoparse va détecter toutes les données de la page, et puis, vous pouvez cliquer sur Créer un flux de travail pour que l'outil génère le workflow.

  • Sélectionnez Sélectionner l'URL de la sous-page dans le panneau Conseils.

  • Choisissez une option dans le menu déroulant. Ici, vous pouvez choisir Lien_du_titre. Et Octoparse va vous conduire à la page de détail du premier résultat.

  • Redétecter automatiquement les données Web ou cliquer sur les champs de données clés tels que le titre, l'état, le prix, etc. pour les récupérer.


2. Configurer le flux de travail manuellement

  • Cliquez sur le premier titre de produit qui contient l'URL du produit. Le titre sélectionné sera mis en vert, tandis que tous les autres titres de produits similaires seront mis en rouge.

  • Cliquez sur Choisir les éléments similaires dans le panneau Conseils

CONSEIL :

Si l'option Choisir les éléments similaires n'apparaît pas dans le panneau Conseils après avoir sélectionné la première URL, continuez à sélectionner la deuxième.

  • Sélectionnez Cliquer sur chaque élément en boucle dans le panneau Conseils. Remarquez que l'étape de clic en boucle est générée automatiquement et ajoutée au flux de travail.

  • Si vous rencontrez cette fenêtre, cliquez sur "Non"

CONSEIL : Pour que tous les liens de la liste soient parcourus en boucle, il est important que vous sélectionniez l'élément d'ancrage. Octoparse identifie automatiquement les balises des éléments sélectionnés. Ainsi, lorsque vous sélectionnez un élément avec une URL, la balise sélectionnée sera "A", qui correspond à une ancre qui relie généralement une page à une autre.

Si vous trouvez qu'Octoparse ne localise pas la balise A, vous pouvez cliquer sur le "A" dans le panneau des conseils.

  • Cliquez sur les champs de données tels que le titre, la revue, le prix, etc. pour les extraire.

A noter :

Définir un temps d'attente dans les options pour les étapes telles que "Cliquer sur l'élément" ou "Extraire les données" peut éviter efficacement le saut de données et rendre le processus d'exploration plus humain. (En général, un délai de 2 à 5 secondes est suffisant). Cliquez ensuite sur Appliquer pour confirmer.

Avez-vous trouvé la réponse à votre question ?