Scraper Goodreads pour extraire les commentaires des livres

Goodreads est le plus grand site de lecteurs et de recommandations de livres au monde et se trouve au cœur de la lecture. Il permet aux lecteurs de suivre les livres qu’ils lisent, qu’ils ont lus et qu’ils veulent lire. Après avoir lu un livre, les lecteurs y partagent également leurs critiques.

Goodreads a été lancé en janvier 2007 et comptait 650 000 membres la première année. En 2022, ce site comptera 125 millions de membres et plus de 3,5 milliards de livres. Non seulement les lecteurs l’utilisent pour enregistrer leur parcours de lecture, mais de nombreuses personnes impliquées dans l’édition, le marketing et même l’industrie du divertissement considèrent également cette plateforme comme une base de données permettant d’observer l’ensemble du marché.

Dans cet article, nous allons vous présenter les données que vous pouvez collecter à partir de Goodreads, et comment récupérer les données de Goodreads sans compétences en codage.

Ce que vous pouvez extraire de Goodreads

Goodreads affiche les détails de chaque livre sur sa page. Outre les informations fondamentales telles que le titre, le sous-titre, le genre, l’auteur et la langue du livre, il fournit également des détails plus spécifiques tels que les informations sur la première publication du livre, les prix littéraires qu’il a remportés, son format et son ISBN. Nous pouvons également vérifier la note, le nombre de notes, les critiques et le nombre de critiques sur la page du livre. Tous ces types de données sont disponibles pour l’extraction de données sur Goodreads.

Outre la collecte de données sur un livre spécifique, vous pouvez également extraire une variété de listes de livres à partir des nouvelles mises à jour, d’une certaine catégorie et même des meilleurs livres de l’année. Ces classements reflètent également des informations sur les qualités des livres, les tendances globales de lecture et les intérêts des lecteurs.

Comment tirer profit des données de Goodreads

Si vous n’utilisez Goodreads qu’en tant que lecteur, l’avantage le plus évident est que vous avez plus de chances de trouver les bons livres grâce à Goodreads. Mais lorsque nous parlons de données, nous devons y réfléchir à plus grande échelle.

Comprendre le marché

Les données de Goodreads constituent une ressource précieuse pour étudier l’ensemble du marché. Vous pouvez rapidement déterminer quel genre est le plus populaire et quel thème est bien accepté par les lecteurs à l’aide d’informations telles que les évaluations, les critiques, le nombre de personnes qui souhaitent lire, etc. Cela vous aidera à divers égards. Par exemple, si vous êtes éditeur, vous aurez une idée du type de livre qui a le plus de potentiel ; si vous êtes écrivain, vous saurez comment créer une œuvre populaire dans une certaine mesure.

Se faire une idée du public

Les membres de Goodreads sont des passionnés de livres et de lecture. Ils sont les clients les plus exigeants en matière de contenu. Leurs comportements sur Goodreads méritent d’être observés et vous permettront de vous faire une idée précise et détaillée de ce qu’ils préfèrent lire, de la manière dont ils évaluent un livre, de leurs habitudes de lecture et de leurs attitudes. Vous pouvez l’utiliser pour optimiser votre stratégie marketing et cibler les bons clients, en particulier si vous êtes un éditeur de livres.

Trouver le prochain best-seller

Les statistiques de 2022 indiquent que 500 000 à un million de livres sont publiés chaque année. Cependant, seuls quelques-uns peuvent se démarquer et devenir des best-sellers. Goodreads dispose d’une page présentant les nouveautés mensuelles. Cette page répertorie les livres que les membres de Goodreads ajoutent le plus régulièrement à leurs étagères, ainsi que l’évaluation moyenne et le nombre total d’évaluations pour chaque nouveau titre. En collectant des données à partir de ces pages, vous pouvez les utiliser pour comprendre quelles sont les tendances et quels types de livres sont les plus susceptibles de devenir le prochain succès. Même pour l’industrie du divertissement, lorsque certaines sociétés recherchent des romans à adapter au cinéma, les données de Goodreads sont essentielles à titre de référence.

4 étapes pour récupérer les données de Goodreads

Cette section vous guidera dans l’utilisation d’Octoparse pour récupérer les évaluations et les commentaires de Goodreads. Octoparse est un outil facile à utiliser et efficace pour le web scraping. Que vous soyez expert en codage ou non, cet outil vous aidera à extraire des données de la majorité des pages en ligne.

Étape 1 : Créer un scraper Goodreads

En prenant l’exemple de Black Holes : The Key to Understanding the Universe (2022) comme exemple, vous pouvez copier l’URL cible ci-dessous et la coller dans la barre de recherche d’Octoparse. Créez une tâche en cliquant ensuite sur « Démarrer ». La page cible sera chargée dans le navigateur intégré d’Octoparse en quelques secondes. Veuillez attendre la fin du chargement avant de continuer.

URL cible : https://www.goodreads.com/book/show/58587868-black-holes

Étape 2 : Sélectionner les données souhaitées

Cliquez sur « Détecter automatiquement les données de la page web » dans le panneau Astuces. Cela permettra à Octoparse de scanner la page pour « deviner » les données que vous voulez. Ensuite, Octoparse mettra en évidence les données extractibles de la page afin que vous puissiez confirmer qu’il s’agit bien de ce que vous recherchez. Jusqu’à présent, Octoparse a sélectionné automatiquement les évaluateurs, les pages d’accueil des évaluateurs, les dates d’évaluation, le contenu de l’évaluation, etc.

Cependant, les champs de données détectés peuvent parfois être indésirables. Vous pouvez également supprimer ces champs indésirables au bas de la page et renommer les champs de données afin de structurer les données dans un format propre.

Étape 3 : Créer et modifier le flux de travail

Une fois que vous avez sélectionné tous les champs de données dont vous avez besoin, cliquez sur « Créer un flux de travail » pour créer un scraper. Un flux de travail s’affiche alors sur le côté droit. Vous pouvez comprendre le fonctionnement de ce scraper en le lisant de haut en bas et de l’intérieur vers l’extérieur (pour les actions imbriquées uniquement). Vous pouvez également cliquer sur chaque étape pour en avoir un aperçu dans le navigateur intégré et vérifier qu’elle fonctionne comme prévu.

Étape 4 : Exécuter la tâche et exporter les données

Une fois que vous avez vérifié que tous les champs de données souhaités ont été sélectionnés et que le flux de travail a fonctionné comme prévu, cliquez sur « Exécuter ». Une boîte s’affiche alors et propose deux options pour l’exécution de votre tâche. Vous pouvez l’exécuter sur votre appareil local ou la confier aux serveurs en nuage d’Octoparse.

Il n’y a que 25 critiques sous le livre Black Holes : La clé pour comprendre l’univers (2022). Le scraping de critiques de livres est donc un petit projet dans ce cas. Vous pouvez continuer à l’exécuter sur votre ordinateur personnel, car cette option est idéale pour la résolution de problèmes et l’exécution rapide de tâches. En revanche, certains livres sur Goodreads ont obtenu des millions d’avis. Si vous souhaitez extraire des données de ces pages, il sera plus efficace de laisser les serveurs could les traiter.

Après avoir choisi une option, Octoparse s’occupera du reste pour vous. Une fois le processus de scraping terminé, vous pouvez exporter les données extraites sous forme de fichier Excel, CSV ou JSON, voire directement vers une base de données comme Google Sheets.

Modèle prédéfini pour obtenir les données de Goodreads

Un autre moyen plus facile que vous pouvez trouver dans Octoparse est l’utilisation de modèles prédéfinis. Avec le modèle de scraping de données Goodreads, vous pouvez extraire des données comme le titre du livre, l’auteur, les critiques et les évaluations facilement à partir de Goodreads en entrant seulement quelques paramètres. L’échantillon de données et le modèle peuvent être trouvés à la fois dans le logiciel Octoparse et dans la section Template du site web, ou vous pouvez cliquer sur le lien ci-dessous directement.

https://www.octoparse.fr/template/goodreads-scraper

En conclusion

Goodreads est l’endroit idéal pour suivre l’industrie de l’édition et le lectorat international. Nous avons prêté attention à cette plateforme et nous avons expliqué comment en extraire des données. Il existe des listes de sites web comme Amazon et sa boutique Kindle qui offrent également des informations précieuses sur les livres et les lecteurs. Avec Octoparse, vous pouvez également extraire facilement des données de ces sites.