Services de web scraping

Hello,

Quels services recommanderiez-vous pour faire du scraping ? Quels outils de scraping pour quel usage ?

1 « J'aime »

J’avais lancé un sujet sur la même question dans un autre forum et voici les quelques réponses obtenues ;

Pour ma part j’utilise actuellement l’outil Web Content Extractor qui pour moi reste le meilleur outil !

Pour les non-développeurs tu as :

Pour les développeurs :

Sinon actuellement je travaille dans une entreprise de Big Data, et il n’y a rien de mieux que les bons vieux scripts PHP.

2 « J'aime »

@LuStanislas, c’est marrant que j’ai l’impression d’avoir déjà répondu à cette question. Apparemment on consulte les mêmes forums :slight_smile:

J’aime bien Scrapy (en Python), c’est performant et bien documenté.

1 « J'aime »

Salut, pour ma part j’ai l’impression que dès qu’il y a des milliers de pages à appeler (par exemple un catalogue de 100 000 articles), le must reste l’utilisation de curl, le code est assez rapide à créer en POO et là où je rencontre le plus de problème, c’est bien souvent à cause de la façon dont est structuré le site à scraper ou encore la configuration du serveur qui l’héberge.

J’ai testé Kimonolabs, leur outil est génial et fonctionne super bien, mais il est bien trop lent, il faut attendre presque une minute pour crawler une page qui demande quelques secondes (et encore) en local depuis une VM.

Bref je trouve le crawler de Symfony2 vraiment bien, après les problèmes que je rencontre avec, j’ai l’impression qu’on les rencontre aussi bien avec les autres script, sinon quelqu’un a déjà testé Google Refine ?

2 « J'aime »

Effectivement, comme quoi le monde du digital … :slight_smile:

1 « J'aime »

J’avais l’idée en tête de me lancer dans la création d’une plateforme de Web Scrapping As A Service. Maintenant que je vois vos messages, j’en profite pour poser quelques questions !

Seriez-vous interressé par un outil simple mais puissant permettant d’extraire des données de plusieurs sites internet ? Si oui, quel serait la « killer feature » qui vous ferais sauter dessus instantanément ?

A côté de ça, quels sont les points les plus problématiques pour vous par rapport au Web Scrapping ? Le temps de développement des scripts, la lenteur de Scrapping, la diversité des serveurs et contraintes, l’analyse des données ?

Merci à tous ! :slight_smile:

Autant demander directement aux journalistes : Lien vers leur communauté Google+, les posts taggés Scraping.
Ca regorge notamment de liens vers des didacticiels, des exemples, des posts de blog, …

Moi j’utilise casperJS qui permet en plus de scripter les sites assez facilement. On peut même en faire des captures d’écrans. Idéal pour faire des tests, récupérer du contenu, ou créer des bots.

2 « J'aime »

J’ai récemment testé https://www.apifier.com/ qui offre 10000 résultats dans sa version gratuite. Ca repose sur PhantomJS et l’interface est top.

3 « J'aime »

Attention, je me permets d’alerter tout le monde sur le fait que d’exploiter les données d’un site tiers sans autorisation en France. Vous fait risquer une sanction juridique lourde, il y a déjà eu des cas de jurisprudence…

Je comprend parfaitement les desiderata de certains qui souhaitent utiliser diverses données. Parfois pour ne pas dire souvent à des fins qui peuvent être légitimes. Et du coup le souhait d’utiliser des outils industrialisés, cependant avec la mise en place du RGPD en prime, je ne parierai pas sur un avenir pérenne de cette pratique/technique.

@flibaud

Justement il n’y a pas de jurisprudence, c’est du cas par cas.
On peux tout a fait aller contre les conditions générales d’utilisation des sites en questions, et quand même gagner au tribunal.

Et même contre de grosses institutions.
CF le cas DSP2 / open banking: banques vs aggrégateurs de comptes, les aggrégateurs de comptes ont gagnés, et en plus les banques sont obligés de fournir des APIs pour accéder au données clients (numéros de comptes, opérations bancaires …).

En attendant, elles sont obligés de se laisser scraper par les aggrégateurs de comptes.

Enfin bref, tout ça pour dire que c’est du cas par cas, que ce soit pour des sites français ou étrangers.

Si tu codes en nodejs pupeteer est vraiment bien, il s’appuie sur chrome. https://github.com/GoogleChrome/puppeteer

Le cas que vous cité, c’est déjà un cas de jurisprudence si je ne m’abuse puisque la justice à rendu une décision. Et cela ne veux pas dire qu’un autre tribunal ne pourra pas rendre une décision inverse.

Il est évident que pour entre autres des raisons de sécurité les applications tierces puissent accéder aux données des banques via des API. Et pas en utilisant du scrapping… qui peut s’avérer instable au demeurant.

Bonjour,

Le lien de Kimono n’est plus disponible…

J’aimerais ajouter à ce sujet:

Pour les non-développeurs:
Mozenda
Octoparse
Parsehub

Pour les développeurs:
Apify
Scrapinghub

Je ne peux ajouter que deux liens car je suis nouveau ici, mais ces outils sont facilement à trouver avec Google.

j’ai utilisé instant scraper, une extension chrome, cependant je ne peux scraper que quelques info se rapportant à une seule page. Je suis intéressé par toutes les infos des annonces comme par exemple : n° annonce, description, user, date, ville, région, prix … Merci infiniment pour votre aide !!!

@farouky , tu as pas mal d’outils qui dépendent de ton cas d’usage et de la complexité des pages.

Regarder sur le Web les meilleurs outils de collecte de données, tu devrais avoir des résultats.

Moi j’ai l’habitude d’utiliser Webscraper.io, tu peux retrouver l’extension chrome sur le google store. C’est 100% gratuit. Je ne sais pas si tu as besoin de faire des choses avancées mais l’utilisation de Regex (si jamais cela te parle) est assez puissante.

S’il s’agit uniquement de données textuelles sur les pages que tu souhaites récupérer de « façon brute », tu pourras l’utiliser assez rapidement si tu as déjà utilisé Instant Data Scraper.

Si besoin tu peux exporter la Sitemap de ton scraper et la partager pour que l’on te donne de l’aide :grinning:

Hello !
Pour faire du scraping sur linkedin, il existe l’outil https://www.derrick-app.com/ :slight_smile: