81,7 téraoctets de données : Meta télécharge des bibliothèques numériques entières sans autorisation

Meta, l’entreprise de Mark Zuckerberg anciennement connue sous le nom de Facebook, fait face à de graves accusations dans le cadre de l’affaire Kadrey contre la société, où elle est accusée d’utiliser des œuvres protégées par des droits d’auteur pour entraîner des modèles d’intelligence artificielle.

Facebook TÉLÉCHARGER

Des révélations récentes ont mis en lumière la nature systématique de ces activités, avec des preuves suggérant des téléchargements massifs de livres à partir de plateformes comme Z-Library et LibGen, atteignant un total de 81,7 téraoctets de données.

Des documents judiciaires ont révélé des courriels internes montrant que les employés de Meta étaient conscients de l’illégalité de leurs actions.

New filing: "Kadrey v. Meta (Book authors sue over LLaMa training)"
Doc #418: Letter Brief

PDF: https://t.co/wRMOHbgVa5 #CL67569326 pic.twitter.com/1dZnlTJFPG
— Tech Cases Bot (@techcases_bot) February 6, 2025

Meta vole du contenu depuis des années pour entraîner son IA

En octobre 2022, l’employée Melanie Kambadur a exprimé ses doutes sur l’éthique de télécharger des livres en utilisant des torrents depuis un ordinateur d’entreprise. Par la suite, en avril 2023, Nikolay Bashlykov, un responsable du projet, s’est montré prudent quant à l’utilisation du réseau d’entreprise pour ces téléchargements, suggérant que cela pourrait impliquer des risques juridiques.

Malgré ces interrogations, Meta a déposé une requête pour rejeter les accusations, en argumentant qu’il n’existe pas de preuves concrètes que ses employés aient téléchargé du matériel illégalement.

Cependant, les informations révélées suggèrent que parmi les 81,7 téraoctets de données téléchargées, au moins 35,7 téraoctets proviennent de livres de bibliothèques numériques non autorisées.

Ces pratiques ne sont pas uniques à Meta, car d’autres entreprises d’intelligence artificielle, comme Google et OpenAI, ont également été critiquées pour l’utilisation abusive de contenu protégé pour entraîner leurs modèles.

L’industrie semble normaliser ces violations de droits d’auteur sous le concept de « usage équitable », un argument qui a été largement remis en question dans le contexte de la croissance de l’IA.

Facebook TÉLÉCHARGER

Cependant, bien que « l’usage équitable » permette l’utilisation limitée de matériel protégé, les plaintes constantes concernant les violations de droits d’auteur dans le domaine de l’IA générative suggèrent que cette justification perd de sa pertinence.