Toutes les collections
Tutoriel sur les cas
Emplois
Scraper les informations d'entreprises sur Crunchbase
Scraper les informations d'entreprises sur Crunchbase

Crunchbase scraping: récupérer les informations sur les entreprises, y compris l'entreprise, le statu, l'effectif etc.

Mis à jour il y a plus d’une semaine

Crunchbase est un site Web pour trouver des informations commerciales de différentes entreprises. On peut y trouver les informations sur les investissements et le financement, les membres fondateurs, les dirigeants, les fusions et acquisitions, les actualités, les tendances industrielles, etc.

Dans ce tutoriel, nous vous montrerons comment extraire les informations d'entreprises sur Crunchbase avec URL de page de résultats de recherche.

Pour scraper Crunchbase, vous pouvez utiliser notre "Modèle de tâche" pré-construit dans la page d'accueil d'Octoparse. Il vous suffit d'entrer quelques paramètres. Pour plus de détails, veuillez consulter ici : Modèles de tâches.

scraper crunchbase

Crunchbase n'affiche que 5 résultats par recherche pour les utilisateurs gratuits. Veuillez donc vous assurer que vous disposez d'un compte professionnel de Crunchbase avant de commencer la configuration de tâche.

Nous allons extraire l'URL de la page de détail de chaque entreprise dans la tâche 1 et extraire des données telles que le nom, l'emplacement, l'introduction et les informations de financement de l'entreprise dans la page de détails dans la tâche 2.

Pour continuer, vous pourriez vous procurer en avant URL d'une page de résultats de recherche ou utiliser directement l'URL dans ce tutoriel: https://www.crunchbase.com/discover/organization.companies/9472f4f3410c0010e2780a286ce97f9e

Voici les principales étapes de ce tutoriel :

Tâche 1 : Extraire toutes les URLs des pages de détails à partir des pages de résultats de recherche

Tâche 2 : Collecter les informations des entreprises à partir d'URLs récupérées

Tâche 1: Extraire toutes les URLs des pages de détails sur les pages de résultats de recherche

1. Aller à la page Web - ouvrir la page Web cible

  • Entrez URL sur la page d'accueil et cliquez sur "Start"

scraper crunchbase

2. Se connecter au site Web et enregistrer les cookies

  • Cliquez pour passer en mode Parcourir, et puis connectez-vous au site Web comme vous le faites sur un navigateur ordinaire

scraper crunchbase

  • Cliquez sur "Go to page Web" dans le workflow

  • Cochez "Use le cookie" et puis, cliquez sur "Use cookie from the current page" dans le panneau de settings en bas.

  • Cliquez sur "OK" pour l'enregistrer

  • scraper crunchbase

3. Auto-détecter la page Web - créer un flux de travail

  • Fermez le Browser mode

  • Cliquez sur "Auto-detect web page data" et attendez que le robot lance la détection.

scraper crunchbase

  • Supprimer les champs indésirés dans le panneau de "Data preview"

scraper crunchbase
  • Choisissez "Create workflow" dans le panneau Tips

scraper crunchbase

Octoparse générera automatiquement une boucle dans le flux de travail :

scraper crunchbase

4. Sélectionner le lien de l'entreprise

  • Sélectionnez la première​ entreprise sur la page Web (la première ligne sera surlignée en rouge)

  • Cliquez sur l'onglet «A» dans le panneau Tips

  • Choisissez "Extract the URL of the selected link"

scraper crunchbase

  • Sélectionnez d'autres informations de la première entreprise

  • Renommez les champs si nécessaire

scraper crunchbase

5. Créer une pagination - scraper plusieurs pages de liste

  • Sélectionnez le bouton Next sur la page Web

  • Choisissez "Loop click single element"

  • Configurez un délai d'attente AJAX approprié

scraper crunchbase

6. Lancer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Start extraction" dans le côté supérieur gauche

  • Sélectionnez "Local xtraction" pour exécuter la tâche sur votre ordinateur

scraper crunchbase

Après avoir gratté les données, vous pouvez les exporter dans un fichier Excel.


Tâche 2 : Récupérer les informations de produits à partir d'URLs

1. Entrer les URLs extraites - ouvrir en boucle les pages de détails

  • Cliquez sur "+ Nouveau" et sélectionnez "Mode avancé"

scraper crunchbase

2. Extraire les données - sélectionner les données à extraire

  • Sélectionnez le nom d'entreprises sur la page Web

  • Choisissez "Extract text of the selected element"

  • Répétez les étapes précedentes pour gratter d'autres informations

scraper crunchbase
  • Renommer les champs si nécessaire

scraper crunchbase

3. Modifier le XPath de champs de données

Pour les informations de financement, l'emplcement varie sur diverses pages d'entreprises.

Par exemple, la page de la société Apple contient des champs tels que "Nombre d'acquisitions" et "Symbole boursier". Alors que la page de la société Shine n'en a pas. Même les champs comme "Total Funding Amount" ne se trouvent pas dans le même endroit de la page.

scraper crunchbase

Nous devons donc modifier XPath de ces champs pour les localiser correctement sur différentes pages. Prenons le champ "Total Funding Amount" comme exemple. Étant donné que le titre du champ ne changera pas, nous pouvons localiser la valeur du champ via son titre.

Le XPath pour le "Total Funding Amount" est :

//span[contains(text(),'Total Funding')]/../../following-sibling::*[1]

  • Ouvrez les paramètres de l'action "Extract Data"

  • Cliquez sur "Customize XPath" du champ

  • Entrez XPath modifié

  • Cliquez sur "OK" pour l'enregistrer

scrape crunchbase

Vous pouvez changer les XPath d'autres champs de la même manière.

4. Lancer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Start Extraction" dans le côté supérieur gauche

  • Sélectionnez "Local Extraction" pour exécuter la tâche sur votre appareil, ou sélectionnez "Run il the Cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

Voici l'exemple des données extraites

scrape crunchbase

Avez-vous trouvé la réponse à votre question ?