Le web scraping et le droit : qu'est-ce qui est vraiment légal ?

camilleroux · Octobre 6, 2017, 3:45

Augustin · Octobre 13, 2017, 10:45

Intéressant, même si l’article ne tranche pas vraiment sur ce qu’il est autorisé de faire, l’extrait du texte de loi n’étant pas non plus très clair (la loi quoi).

Je m’étais posé la question une première fois quand je voulais récupérer le nombre de followers d’un utilisateur sur Twitter, chose qui n’était pas (il y a 3/4 ans) possible sans un login twitter de l’utilisateur, de l’overkill dans mon cas. Du coup je me disais : si la donnée est publique (tout le monde peut voir le profil d’un utilisateur) pourquoi mon programme ne pourrait pas.
Et j’ai consulté les TOS de Twitter où il était clairement spécifié que le scrapping était interdit.

Donc maintenant, je considère ces TOS comme la référence. Or quand j’ai développé novatube rien n’était précisé dans ce sens sur le site de Radio Nova. Mieux, l’information que je consulte est disponible à tout moment (possibilité de consulter l’historique) sur le site de Nova, donc je ne diffuse aucune donnée qui ne soit pas disponible sur le web. Enfin, les solutions techniques pour me bloquer sont simples (captcha), donc j’en ai déduit qu’il laissait volontairement une zone de tolérance par rapport à ces données.

Depuis j’ai eu l’occasion d’échanger avec Nova. Ils ne sont pas hostiles avec ma démarche, j’imagine tant que je ne leur fait pas de l’ombre…

VincentB · Octobre 14, 2017, 8:43

Bonjour,

Une licence utilisateur est un contrat, pas une source de de droit… donc se fonder uniquement sur les conditions d’utilisation d’une seule entreprise et les généraliser est un excellent moyen de se viander.

Je trouve l’article peu clair et parfois peu exact (et bourré de fôte d’aurtoghraffes et ça ça m’énerve !)

Cette disposition du code pénal n’est hélas pas exemplaire d’un point de vue rédactionnel, anéfé…

Comme d’hab ; il faut distinguer le pénal et le civil.

1 - Pénalement c’est simple. Le web scrapping (que l’on pourrait traduire par « collecte de données via un réseau », pour utiliser un langage compréhensible par un militant de base) est réprimé par l’article 323-3 pén :

https://www.legifrance.gouv.fr/affichCodeArticle.do?cidTexte=LEGITEXT000006070719&idArticle=LEGIARTI000006418320&dateTexte=&categorieLien=cid

Il y a hélas une difficulté à mon avis : le mot « frauduleusement » pose problème ; s’applique-t-il uniquement à l’introduction et à la modification de données ou aussi à l’extraction ? A noter qu’il y a eu une tentative de question prioritaire de constitutionnalité sur le sujet… qui n’a pas été transmise par la Cour de Cassation - à raison car la QPC était à mon avis mal rédigée.

Pari ailleurs, ne pas oublier la jurisprudence Bluetouff (que l’article omet de citer ce qui est inexcusable ! Un article sur la collecte de données via le web sans référence à l’arrêt Bluetouff, c’est comme un couscous sans semoule…) où la Cour de Cassation retenait la qualification de vol - réprimé par le 311-1 pén.

Si vous voulez un article vraiment clair sur cet aspect pénal je vous suggère celui-ci :

http://www.silicon.fr/vol-information-jurisprudence-bluetouff-pour-gloire-117057.html?inf_by=59e1c72a671db8f9228b493b

Notez que je partage pleinement l’avis de son auteur lorsqu’il affirme que la jurisprudence Bluetouff n’est pas enterrée.

2 - Civilement, c’est soit de la RC délictuelle soit une atteinte à des droits de propriété intellectuelle .

3 - Conclusion en forme de résumé :

le simple fait de s’introduire dans un système de données de façon intentionnelle est dans doute une infraction pénale réprimée par le 323-3 pén (je ne suis pas du tout certain qu’il soit nécessaire que cet accès soit frauduleux pour qu’il y ait infraction…) ;
l’extraction des données est un délit pénal réprimé par le 323-3 pén ou le 311-1 pén ;
leur utilisation postérieurement à l’extraction si elle cause un préjudice engage la responsabilité civile du contrevenant.

En clair, abstenez-vous ; sinon, je suis à votre disposition en cas de pépin.

Berfhaen · Octobre 18, 2017, 9:25

Effectivement, l’article reste vague.

Pour ma part, je pense que le scraping n’est pas interdit à partir du moment où ce sont des données publiques (libre choix du logiciel pour se connecter à un serveur : Firefox, Chrome, Edge ou un scraper peu importe). Cependant, l’utilisation que l’on en fait peut être interdite (démarchage non sollicité, Spam etc…)

VincentB · Octobre 18, 2017, 9:45

C’est faux.

« données publiques », déjà, ça veut rien dire.

Et l’art 323-3 pén est très clair : il réprime l’introduction dans un système quelle que soit la nature des données.

Berfhaen · Octobre 18, 2017, 10:07

L’utilisateur a le libre choix du logiciel pour se connecter à un serveur qui offre des services. À partir de là, il peut se connecter avec un scraper.

Un navigateur est un robot. Il automatise la récupération des données, analyse le contenu, télécharge d’autres fichiers nécessaire à l’affichage de la page (images, css, javascript etc…) et stocke certaines données pour une réutilisation future (à des fins d’optimisation). Ils peuvent très bien entrer dans la case bot ou scraper et être interdit par la loi de ce fait.

Berfhaen · Octobre 18, 2017, 10:13

Avec un scraper, il n’y a pas nécessairement l’introduction dans un système. Il accède aux données visibles que le serveur fournit aux navigateurs.

VincentB · Octobre 18, 2017, 10:49

Je ne dis pas le contraire. Mais vous évoquiez la nature des données ; intrusion = délit, pas d’intrusion = pas de délit épicétou. Quelle que soit la nature des données.

Berfhaen · Octobre 18, 2017, 11:14

Donc le scraping est légal.