logo
languageFRdown
menu

Comment scraper des tweets sur Twitter ?

4 minutes de lecture

Dans le monde Internet, les données des réseaux sociaux sont d’une importance gigantesque pour les marketeurs ou les analyseurs. Vous parcourez encore les tweets l’un après l’autre pour comprendre ce que disent vos cibles ? Dans cet article, je vais vous montrer comment récupérer à grande échelle les tweets depuis Twitter sans coder, surtout en 5 minutes, sans utiliser l’API Twitter, Tweepy, Python, ni écrire une seule ligne de code.

Web scraping pour obtenir toutes les données depuis Twitter

 

Egalement sous le nom de harvesting, le web scraping consiste à extraire des données d’un site web pour les utiliser à des fins diverses. Le fonctionnement est relativement simple : un programme informatique, appelé scraper ou bot, est utilisé pour extraire les données d’une ou plusieurs pages web. Le scraper utilise des algorithmes pour naviguer sur le site web, récupérer les données qui l’intéressent, et les stocker dans une base de données ou un fichier Excel. C’est une technique qui libère réellement les gens du travail répétitif de copier-coller.

L’origine du web scraping remonte aux débuts d’Internet, lorsque les premiers moteurs de recherche ont été créés pour indexer le contenu des pages web. Cependant, la pratique du web scraping s’est rapidement étendue à d’autres domaines, notamment dans le monde du marketing et de la vente, permettant de collecter des données sur les clients, les prospects et les concurrents, afin de mieux cibler les campagnes publicitaires et d’optimiser les stratégies de vente. Aujourd’hui, le web scraping est utilisé dans de nombreux secteurs, tels que la finance, l’immobilier, l’e-commerce, la santé, etc. Dans le domaine de l’e-commerce, le web scraping permet de surveiller les prix des produits sur les sites concurrents, de collecter des avis clients, et de suivre les tendances du marché.

Meilleur outil nocode pour le scraping de Twitter

Le web scraping peut être fait en écrivant des codes ou sans code. De nombreux outils sont disponibles pour faire le web scraping sans code, il suffit pour les utilisateurs de pointer et cliquer pour configurer un web scraper en 10 minutes, ou plus rapidement si vous êtes familier avec l’outil.

Pour extraire des données de Twitter, vous pouvez utiliser un outil de web scraping automatisé – Octoparse. C’est un outil réputé pour être facile à utiliser, mais puissant dans l’extraction de donnéess. Comme Octoparse simule l’interaction humaine avec une page Web, il vous permet d’extraire toutes les informations que vous voyez sur n’importe quel site Web, comme Twitter. Par exemple, vous pouvez facilement extraire les tweets d’un manipulateur, les tweets contenant certains hashtags, ou postés en une date spécifique, etc, une fois qu’on lance une recherche avancée. Tout ce que vous avez à faire est de saisir l’URL de votre page Web cible et de la coller dans le navigateur intégré d’Octoparse. En quelques clics, vous pourrez créer par vous-même un crawler à partir de rien. Une fois l’extraction terminée, vous pouvez exporter les données dans des feuilles Excel, CSV, HTML, SQL, ou les diffuser dans votre base de données en temps réel via les API d’Octoparse.

L’étude de cas : Comment analyser l’opinion publique sur les réseaux sociaux (ex : discussion de la présidentielle sur Twitter)

Guide étape par étape pour scraper des tweets sur Twitter

Si vous êtes intéressé de continuer de configurer un web scraper avec Octoparse, je vous invite de télécharger Octoparse sur votre ordinateur et puis de suivre les étapes suivantes pour scraper les données Twitter. Voyons maintenant comment construire un crawler Twitter en quelques minutes.

Étape 1 : Entrer l’URL et configurer la pagination

Disons que nous essayons de récupérer tous les tweets d’un certain compte et dans notre exemple, nous récupérons le compte Twitter officiel d’Octoparse.

Habituellement, de nombreux sites Web sont équipés d’un bouton “page suivante” qui permet à Octoparse de cliquer et d’aller sur chaque page pour obtenir plus d’informations. Cependant, Twitter applique la technique du “défilement infini“, ce qui signifie que vous devez d’abord faire défiler la page vers le bas pour laisser Twitter charger quelques tweets supplémentaires. Comme Octoparse simule l’action humaine, son processus d’extraction final se déroulera donc comme suit : Octoparse fera défiler la page un peu, extraira les tweets affichées à l’écran, fera défiler un peu, extraira, et ainsi de suite.

Pour assurer que le robot fait défiler la page de manière répétitive, il nous faut construire une boucle de pagination par les étapes suivantes.

1) Ajouter un élément de boucle au workflow 

2) Choisir le “Scroll page” (la page de défilement) comme mode de boucle

3) Configurer les paramètres de défilement selon vos besoins

 

 

Comme vous pouvez le voir ici, une boucle de pagination est affichée dans la zone de travail, ce qui signifie que nous avons construit une pagination avec succès. 

 

Étape 2 : Construire un élément de boucle pour extraire les données

Maintenant, il est temps à extraire les tweets. Disons que nous voulons obtenir le gestionnaire, l’heure de publication, le contenu des tweets, le nombre de commentaires, de retweets et de likes.

Tout d’abord, nous allons construire une boucle d’extraction pour localiser les tweets un par un. Nous pouvons placer le curseur sur le coin du premier tweet et cliquer dessus. Lorsque le tweet entier est surligné en vert, cela signifie qu’il est sélectionné. Répétez cette action sur le deuxième tweet. Comme vous pouvez le voir, Octoparse est un robot intelligent et il a automatiquement sélectionné tous les tweets suivants pour vous. Cliquez sur “extract text of the selected elements” et vous verrez qu’une boucle d’extraction est intégrée au workflow. 

Mais notre objectif est d’extraire différents champs de données dans ces colonnes distinctes. Nous devons donc sélectionner manuellement nos données cibles. C’est très facile à faire. Allez au premier tweet, cliquez sur le gestionnaire, et puis cliquez sur “extract the text of the selected element” qui se trouve sur le panneau de Tips. Répétez cette opération avant d’obtenir tous les champs de données que vous voulez. Une fois que vous avez terminé, supprimez la première colonne géante dont nous n’avons pas besoin et enregistrez le crawler. Maintenant, notre dernière étape nous attend. 

  

Étape 3 : Modifier les paramètres de pagination et exécuter le crawler

Nous avons construit la boucle de pagination plus tôt, mais il faut encore modifier légèrement les paramètres du workflow.

Comme notre but ultime est d’assurer que Octoparse collecte les données avec succès et que nous voulons toujours obtenir les données plus rapidement, il faut trouver un équilibre entre la vitesse et le résultat. Cela nous demande à mieux définir les paramètres en tenant en compte la vitesse de chargement, l’état de votre Internet. Je vous conseille de faire des essais avant de trouver la bonne réponse. Voilà un vidéo sur comment scraper les données de Twitter qui va peut-être vous servir d’un exemple pour modifier les paramètres.

Vous pouvez maintenant exécuter le crawler sur votre appareil local pour obtenir les données, ou l’exécuter sur les serveurs Octoparse Cloud pour planifier vos exécutions et économiser vos ressources locales. 

 

Si vous avez des questions sur le scraping de Twitter ou de tout autre site Web, n’hésitez pas à nous contacter. Nous sommes prêts à vous aider !

Pour finir, on peut discuter sur un sujet auquel s’intéressent beaucoup de personnes : est-il légal de scraper Twitter ?

D’une manière générale, il est légal d’extraire et d’exploiter les données publiques. Cependant, vous devez toujours respecter la politique de protection des droits d’auteur et la réglementation sur les données personnelles. L’utilisation des données que vous avez extraites relève de votre responsabilité et vous devez prêter attention à la législation locale. Si vous avez toujours des doutes sur la légalité, vous pouvez essayer l’API de Twitter.

 

L’API Twitter permet aux utilisateurs avancés qui connaissent la programmation d’avoir accès aux données Twitter comme les Tweets, les messages directs, les utilisateurs, etc.

 

Articles populaires

Explorer les sujets

Commencer votre découverte de Octoparse dès maintenant

Télécharger

Lecture conseillée