Demande de renseignement sur l'éventuelle illégalité d'un scraping

Bonjour a tous,

Je suis entrain de développer un service web de statistiques sur les joueurs de poker en ligne du reseau Winamax.

Un peu comme ce site https://fr.sharkscope.com/ pour les connaisseurs.
En gros, ce site est le leader de la statistiques de poker en ligne, mais il a plein de défauts, d’où mon idée d’en faire un mieux.

Pour récupérer les informations des tournois, je me base pour l’instant sur cette url : https://www.winamax.fr/les-tournois_planning
Partant de là, je récupére les résultats des tournois pour alimenter ma base de donnée.

Sauf que, ça serait trop beau si ça marchait comme ça, au bout de quelques tournois, une dizaine, on me demande une captcha.

Je ne suis pas un développeur expérimenté, mais il me semble que pour pallier le problème, soit je fais appel au vilain death by captcha, mais éthiquement je trouve ça moyen, soit je passe un bon vieux OCR en espérant que ça marche. J’ai tenté l’OCR, ça marche a peu près sur 10% des captcha.

La question que je me pose, c’est est-ce que c’est illégal de faire ça ? Parce que je contourne quand même un moyen de sécurité.
Après en soit ce n’est pas bien méchant ce que je fais, c’est juste de simple requête http sur un serveur web.

En aucun cas ça ne posera de problème sur leur serveur.

J’ai envoyé un mail a Winamax pour les prévenir de mon projet, et je leur ai demandé si je pouvais avoir un accès a leur API.
Il m’ont répondu qu’ils me donnerais l’accès si je leur produit une maquette inintéressante. Dans le mail j’ai bien préciser que j’allais scrapper leur page de tournois.

Techniquement je fais ça en Java a l’aide de htmlUnit.

1 J'aime

Bonjour @KevinS,

… Mais … Qu’est ce que ça veut dire ?! :wink:

Je n’ai pas très bien compris « si vous leur produisez une maquette « inintéressante » ???!!! »

Je ne m’y connait pas côté technique mais ce que je vous conseillerais serait de demander à être mis en relation avec le responsable technique pour être sûr que vous bossez sur des bases saines et transparentes.
Pas de quiproquo possible, en plus vous aurez un mail (d’une personne accréditée) comme moyen de preuve, en cas de litige.

Salut, techniquement il te faut un VPN, Hide my ass propose un bon rapport qualité/prix.
Tu peux aussi regarder des services comme Kimono pour scrapper en mode WYSIWYG.

Juridiquement, je ne sais pas trop, tu accèdes à des informations publiques. Tu pourrais payer des petites mains pour entrer ces données à la chaine dans un Excel, sauf que là tu l’automatises.
A voir avec un avocat spécialiste.

Bonjour @benjamin_bnds,

Je pense que « un avocat spécialiste » oui, mais il faut voir aussi la politique de fonctionnement de l’entreprise en question, ils peuvent y voir un « avantage », là où d’autres n’en verraient pas. Surtout, qu’ils n’avaient pas l’air complètement fermés dans la réponse qu’ils ont donné. Qu’en pensez vous @KevinS ?

Hello.
Oui effectivement dans ce cas précis Winamax avait l’air ouvert et c’est toujours plus simple d’avoir accès une API existante et plus exhaustive qu’un scrapping maison.

1 J'aime

Bonjour,

Je ne suis que juriste spécialisé mais la première réponse c’est qu’il convient bien de distinguer des informations publiées, communiquées au public sur un site et autorisations de réutilisation.

En France, les bases de données, c’est le cas ici, sont bien protégées par un droit sui generis. Rapport au scrapping, l’article L342-1 et suivants du CPI est tout de même assez explicite :

Le producteur de bases de données a le droit d’interdire :

1° L’extraction, par transfert permanent ou temporaire de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu d’une base de données sur un autre support, par tout moyen et sous toute forme que ce soit ;

2° La réutilisation, par la mise à la disposition du public de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu de la base, quelle qu’en soit la forme.

Ces droits peuvent être transmis ou cédés ou faire l’objet d’une licence.

http://www.legifrance.gouv.fr/affichCodeArticle.do?idArticle=LEGIARTI000006279247&cidTexte=LEGITEXT000006069414

Plus globalement « les notions d’extraction et de réutilisation doivent être interprétées comme se référant à tout acte non autorisé d’appropriation et de diffusion au public de tout ou partie du contenu d’une base de données. » (CJCE 9 Novembre 2004).

Bref, je peux que conseiller d’avoir une autorisation, de manière formelle et écrite, de winamax avant de faire quoi que ce soit.

3 J'aimes

Tout d’abord je vous remercie a tous pour vos réponses.

@benjamin_bnds Non je ne pense pas qu’un vpn fera l’affaire. Ils pratiquent un bloquage par ip a partir d’une dizaine de requête sur la page de tournois. VPN ou pas, ça ne change rien. La seule solution techniquement viable c’est de passer par un noeud Tor et de configurer le changement d’ip a la limite basse (qui est de 10 secondes si je me souviens bien).

@fabiendlc : " « si vous leur produisez une maquette « inintéressante » ???!!! »" Concrètement j’ai envoyé un mail leur expliquant la situation, je leur ai demandé si je pouvais scrapper leur page de résultat de tournois, il m’ont dit que oui, mais que j’aurais du mal vu les sécurité mise en place. Il m’ont aussi dit que si je leur montrait une maquette qu’ils jugent convenable, ils me fourniraient un accès a leur API.

Après je pourrais éventuellement me concentrer sur l’aspect front-end/ui et produire des fausses données, mais vu que tout l’enjeu technique du projet réside dans le traitement/organsation de la data, et que je ne suis même pas sur qu’il me donne l’accès a leur API, j’ai préféré partir sur l’extraction des données.

Quand a payer des petites main, c’est une idée qui pourrait être intéréssante, sauf qu’il y a beaucoup trop de tournois a extraire (20 000 par mois)

Je pense que je vais redemander a Winamax un accès a leur API, en leur montrant un mockup de mon projet.

Edit : Oui j’ai fait une coquille, évidemment je voulais dire une maquette intéressante !

2 J'aimes

Je pense en effet que le plus simple est de contacter Winamax et de leur proposer un partenariat avec ta plateforme.

Au pire, tu as déjà une réponse négative. Rien à perdre de ce côté là :wink:

Pour le scrap ce qu’on faisait dans mon ancienne entreprise (scrap Google/Bing/Yahoo… SERP), c’était d’acheter une classe C IP (254 IP possible donc). Et toutes les x requêtes on passait à l’IP suivante en boucle. Ça marchait très bien mais ça demande du travail technique (et que la blacklist ne dure pas trop longtemps).

Après si ils ont mis ce genre de sécurité c’est justement pour éviter les bots, donc je serais toi je ne partirais pas sur une solution qui contournerait leur sécurité, car le jour où ils la modifieront plus rien ne marchera. Les convaincre de te laisser un accès à leur API est de loin le plus viable.

2 J'aimes

Oui c’est souvent ce qu’il se passe pour contourner le black listing d’ip. D’ailleurs vous alliez sur quel site pour acheter vos adresses ?

En tout cas je vous remercie a tous pour vos réponses, je vais envoyer un jolie mail a Winamax pour leur API, je vous tiens au courant.

1 J'aime

Hello

Est-ce que tu connais ce service import.io ca extrait automatiquement les données de n’importe quel site au format excel. Je ne sais pas si ca serait applicable à ton projet, mais ca vaut peut-être la peine de regarder?

Il y a aussi Kimono un concurrent d’import.io

Ça je ne sais plus désolé

Bonjour @KevinS ,

Ou en es-tu de ton projet ? Je suis en train de faire la meme chose…

Proxymesh est tres bien

Proposé avec ❤ ️par Camille Roux