logo
languageFRdown
menu

Blog posts scraping facile avec un Web Scraper

3 minutes de lecture

En parlant de créer un blog rapidement, on pense à profiter du blog scraping pour alimenter la curation de contenu. Pour dire les choses simplement, c’est l’acte de scraper une grande quantité des articles de blog sur Internet, d’en sélectionner les meilleurs et de les présenter d’une manière significative et organisée.

Un blog nouvellement créé peut développer très rapidement avec la bonne stratégie. L’une des meilleures stratégies est la curation de contenu, car elle ne crée pas, elle partage, ce qui vous permet de gagner beaucoup de temps tout en attirant du public vers votre blog. Cependant, il n’est pas facile de trouver le contenu de haute qualité pour votre blog. Lire tous ces contenus sur Internet n’est pas une bonne idée. Voici une meilleure méthode que je veux partager avec vous.

En deux étapes, vous trouverez le contenu le plus approprié pour votre blog.

 

Tout d’abord, trouvez des sites Web liés à votre blog

Tous les sites Web se concentrent sur un thème. Dès que vous avez défini le thème de votre propre blog, vous pouvez rechercher des sites Web qui sont liés à ce thème et qui sont performants sur le marché. Marquez ces sites dans votre liste de mémos.

Et puis, utilisez Octoparse pour blog scraping

Allez-y ! Aller découvrir les articles appropriés pour votre blog. Pour un nouveau blog, la popularité du contenu vient premièrement, bien avant de la relevance. Cela signifie que vous devez tenir compte davantage de la popularité du contenu. Donc, lorsque vous utilisez Octoparse pour effectuer l’extraction de données, il vous faut faire attention au nombre de vues de l’article, au classement, etc. Bien sûr, l’URL, la description, le titre, la catégorie, l’article complet des blog posts sont parmi les informations les plus importantes.

Par exemple, si je voudrais cibler le growthhacking digital, un des sources appropriés est BDM (blogdumoderateur) qui donne un panorama des métiers du marketing et de la tech.

Voilà comment j’ai extrait avec Octoparse des informations des articles de la catégorie “Marketing” depuis BDM pour alimenter la curation de contenu.

 

Préparations : télécharger Octoparse et l’installer, décider l’URL cible

https://www.blogdumoderateur.com/marketing/

 

Étape 1 : entrer l’URL dans Octoparse et puis cliquer sur “Start”

Étape 2 : lancer l’auto-détection

Il suffit de cliquer “Auto-detect webpage data” dans le panneau de conseils. Après que l’auto-détection est accomplie, allez checker les données dans le panneau de “Data Preview”. Dans notre cas, je supprime le champ de “entryexcerpt” car la description n’est pas complete et on peut la collecter dans la page d’article. Si tout est fait, cliquer sur “Create workflow” pour que Octoparse génère automatiquement le flux de travail. Jusque maintenant, la pagination et la boucle sont créées avec succès.

 

Étape 3 : cliquer pour entrer dans la page d’article

Cliquer sur le premier titre, et puis sélectionner “Click element”.

 

Étape 4 : choisir les données à extraire

Simplement cliquer sur les données qui vous intéressent et puis choisir “Extract text of the selected element”. Je vais extraire la description, l’auteur, le temps de publication, le sponsor.

Et pour extraire l’article complet, l’étape est cliquer sur le premier paragraphe, cliquer sur la balise de “DIV” dans le panneau de conseils, et puis “Extract text of the selected element”.

Si nécessaire, vous pouvez modifier les noms des champs.

 

 

Étape 5 : exporter les données

L’extraction de données peuvent être exécutée sur l’ordinateur local ou sur Cloud plus rapide, plus pratique (qui est un service exclu aux utilisateurs premium, pour demander un essai gratuit de 14 jours).

Les données peuvent être exportées vers Excel, CSV ou d’autres systèmes via API.

Voilà les données que j’ai récupérées. Elles contiennent le titre, l’URL du blog, l’URL de l’image de couverture, le tag, la date de la publication, la description, l’auteur, le temps de publication, le sponsir, le texte complet des articles. Les informations ainsi collectées peuvent donner des idées pour la sélection de nouveaux sujets de votre blog.

Le blog posts scraping est facile avec Octoparse, et je suis sûr qu’il vous aidera dans la curation de contenu. Si vous y êtes intéressé, je vous invite à télécharger Octoparse et à suivre les étapes pour obtenir les données dont vous avez besoin.

Bien sûr, ce n’est pas la fin des efforts que vous devez faire pour écrire un blog. Vous devez le mettre à jour en permanence et maintenir la qualité de vos articles. Cet article ne présente que l’une des méthodes les plus courantes pour rédiger un blog.

Bonus : voilà un vidéo en anglais sur le scraping de données d’actualités depuis Reuters.com. J’espère que cela vous est utile.

 

Articles populaires

Explorer les sujets

Commencer votre découverte de Octoparse dès maintenant

Télécharger

Lecture conseillée