Services de web scraping

scraping

(Camille Roux) #1

Hello,

Quels services recommanderiez-vous pour faire du scraping ? Quels outils de scraping pour quel usage ?


La boîte à outils pour start-ups
(Stanislas) #2

J’avais lancé un sujet sur la même question dans un autre forum et voici les quelques réponses obtenues ;

Pour ma part j’utilise actuellement l’outil Web Content Extractor qui pour moi reste le meilleur outil !

Pour les non-développeurs tu as :

Pour les développeurs :

Sinon actuellement je travaille dans une entreprise de Big Data, et il n’y a rien de mieux que les bons vieux scripts PHP.


(Julien Dubreuil) #3

@LuStanislas, c’est marrant que j’ai l’impression d’avoir déjà répondu à cette question. Apparemment on consulte les mêmes forums :slight_smile:

J’aime bien Scrapy (en Python), c’est performant et bien documenté.


(anon72377917) #4

Salut, pour ma part j’ai l’impression que dès qu’il y a des milliers de pages à appeler (par exemple un catalogue de 100 000 articles), le must reste l’utilisation de curl, le code est assez rapide à créer en POO et là où je rencontre le plus de problème, c’est bien souvent à cause de la façon dont est structuré le site à scraper ou encore la configuration du serveur qui l’héberge.

J’ai testé Kimonolabs, leur outil est génial et fonctionne super bien, mais il est bien trop lent, il faut attendre presque une minute pour crawler une page qui demande quelques secondes (et encore) en local depuis une VM.

Bref je trouve le crawler de Symfony2 vraiment bien, après les problèmes que je rencontre avec, j’ai l’impression qu’on les rencontre aussi bien avec les autres script, sinon quelqu’un a déjà testé Google Refine ?


(Stanislas) #5

Effectivement, comme quoi le monde du digital … :slight_smile:


(Guillaume Besson) #6

J’avais l’idée en tête de me lancer dans la création d’une plateforme de Web Scrapping As A Service. Maintenant que je vois vos messages, j’en profite pour poser quelques questions !

Seriez-vous interressé par un outil simple mais puissant permettant d’extraire des données de plusieurs sites internet ? Si oui, quel serait la “killer feature” qui vous ferais sauter dessus instantanément ?

A côté de ça, quels sont les points les plus problématiques pour vous par rapport au Web Scrapping ? Le temps de développement des scripts, la lenteur de Scrapping, la diversité des serveurs et contraintes, l’analyse des données ?

Merci à tous ! :slight_smile:


(Simon Georges) #7

Autant demander directement aux journalistes : Lien vers leur communauté Google+, les posts taggés Scraping.
Ca regorge notamment de liens vers des didacticiels, des exemples, des posts de blog, …


(Olivier Bonnaure) #8

Moi j’utilise casperJS qui permet en plus de scripter les sites assez facilement. On peut même en faire des captures d’écrans. Idéal pour faire des tests, récupérer du contenu, ou créer des bots.


(Camille Roux) #9

J’ai récemment testé https://www.apifier.com/ qui offre 10000 résultats dans sa version gratuite. Ca repose sur PhantomJS et l’interface est top.


(koinkoin) #10

Ce message a été signalé par la communauté et temporairement masqué.


(Frédéric Libaud) #11

Attention, je me permets d’alerter tout le monde sur le fait que d’exploiter les données d’un site tiers sans autorisation en France. Vous fait risquer une sanction juridique lourde, il y a déjà eu des cas de jurisprudence…

Je comprend parfaitement les desiderata de certains qui souhaitent utiliser diverses données. Parfois pour ne pas dire souvent à des fins qui peuvent être légitimes. Et du coup le souhait d’utiliser des outils industrialisés, cependant avec la mise en place du RGPD en prime, je ne parierai pas sur un avenir pérenne de cette pratique/technique.


(Kevin) #12

@flibaud

Justement il n’y a pas de jurisprudence, c’est du cas par cas.
On peux tout a fait aller contre les conditions générales d’utilisation des sites en questions, et quand même gagner au tribunal.

Et même contre de grosses institutions.
CF le cas DSP2 / open banking: banques vs aggrégateurs de comptes, les aggrégateurs de comptes ont gagnés, et en plus les banques sont obligés de fournir des APIs pour accéder au données clients (numéros de comptes, opérations bancaires …).

En attendant, elles sont obligés de se laisser scraper par les aggrégateurs de comptes.

Enfin bref, tout ça pour dire que c’est du cas par cas, que ce soit pour des sites français ou étrangers.


(Nicolas Galiana) #14

Si tu codes en nodejs pupeteer est vraiment bien, il s’appuie sur chrome. https://github.com/GoogleChrome/puppeteer


(Frédéric Libaud) #15

Le cas que vous cité, c’est déjà un cas de jurisprudence si je ne m’abuse puisque la justice à rendu une décision. Et cela ne veux pas dire qu’un autre tribunal ne pourra pas rendre une décision inverse.

Il est évident que pour entre autres des raisons de sécurité les applications tierces puissent accéder aux données des banques via des API. Et pas en utilisant du scrapping… qui peut s’avérer instable au demeurant.


Proposé avec ❤️par Camille Roux