INFOS

#Actualités

Piratage organise : comment les geants de l'IA absorbent des millions de livres illegaux

Blog Image

En janvier 2026, deux révélations majeures ont convergé pour invalider les arguments de « fair use » défendus par l'industrie de l'IA. D'abord, une plainte amendée contre NVIDIA a exposé un contrat explicite avec Anna's Archive, la plus grande bibliothèque pirate du monde. Puis, une étude Stanford peer-reviewed a fourni la preuve technique que quatre modèles de production (Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro et Grok 3) peuvent reproduire des livres entiers avec une précision stupéfiante—95.8% d'un livre, généré verbatim, en utilisant seulement trois mots comme amorce.


Cette convergence pose une question existentielle : comment protéger les œuvres quand les modèles d'IA générative possèdent la capacité technique de les reproduire intégralement, et quand les entreprises de technologie financent délibérément des partenariats avec des sources piratées ?


NVIDIA et Anna's Archive : le partenariat qui expose le système

Selon la plainte amendée déposée le 17 janvier 2026 devant la Cour fédérale de Californie du Nord, les représentants de NVIDIA auraient directement contacté Anna's Archive, la bibliothèque de l'ombre regroupant des millions de livres piratés, pour négocier un accès aux données de formation de ses modèles.


«Nous étudions la possibilité d'inclure les archives d'Anna dans les données de pré-entraînement pour nos LLM.» — Email interne NVIDIA Data Strategy Team

Anna's Archive aurait proposé un accès « haute vitesse » à environ 500 téraoctets de données en échange de « dizaines de milliers de dollars ». Plus crucial : Anna's Archive aurait expressément averti NVIDIA du caractère illégal du contenu. Selon les documents, la direction de NVIDIA aurait approuvé le partenariat dans un délai d'une semaine après cet avertissement.

Trois éléments distincts ressortent : d'abord, NVIDIA n'a pas seulement téléchargé les données, mais a fourni à ses clients commerciaux des outils d'accès automatique au dataset « The Pile », contenant Books3 (source pirate directe). Deuxièmement, la plainte affirme que NVIDIA a utilisé en parallèle LibGen, Sci-Hub, Z-Library et Bibliotik. Troisièmement, les auteurs dénoncent une « pression compétitive » ayant motivé cette piraterie organisée.


Stanford révèle ce que les IA peuvent réellement extraire : des livres entiers

Parallèlement au cas NVIDIA, une étude académique révisée par les pairs de l'Université Stanford (Ahmed, Cooper, Koyejo, Liang) publiée le 6 janvier 2026 fournit une preuve technique que la mémorisation des données copyrighted est bien réelle et extractible.


Les chercheurs ont conduit des expériences entre août et septembre 2025 sur quatre modèles de production majeurs en utilisant une procédure simple en deux phases :

Phase 1 (Probe) : Tenter de compléter un court préfixe d'un livre (e.g., les trois premiers mots de Harry Potter). Pour certains modèles, cela a nécessité un jailbreak « Best-of-N ».

Phase 2 (Continuation) : Si Phase 1 réussit, demander itérativement au modèle de continuer le texte jusqu'à obtenir un refus ou une limite de budget.

🔴 Résultats :

  • Claude 3.7 Sonnet : 95.8% d'Harry Potter (livre entier nearly verbatim), 97.5% de The Great Gatsby (public domain)
  • Gemini 2.5 Pro : 76.8% d'Harry Potter — SANS jailbreak
  • Grok 3 : 70.3% d'Harry Potter — SANS jailbreak
  • GPT-4.1 : 4.0% (refusa après chapitre 1, malgré 5179 tentatives de jailbreak Best-of-N)

IMPORTANT : deux des quatre modèles n'ont pas eu besoin de jailbreak pour commencer à reproduire des livres copyrighted. Gemini 2.5 Pro et Grok 3 ont directement accepté les demandes de continuation du texte original. Claude 3.7 Sonnet et GPT-4.1 ont nécessité des techniques adversariales (Best-of-N, perturbations textuelles aléatoires).


Contenu de l’article

Extraction de Harry Potter à l'école des Sorciers - Source Stanford


L'étude rapporte que pour Claude 3.7 Sonnet, les longueurs maximales de blocs verbatim extractés atteignaient 6658 à 9070 mots. Pour comparaison, la plus longue extraction précédente signalée (de ChatGPT 3.5) était légèrement supérieure à 4000 caractères.


L'étude souligne un point critique : « Même avec des mesures de protection au niveau du modèle et du système, l'extraction de données d'entraînement (sous droits d'auteur) reste un risque pour les LLM de production.»


Le contraste avec les décisions judiciaires : la preuve manquante

L'importance de l'étude Stanford devient évidente en relisant les jugements américains récents. Le juge Vince Chhabria, en faveur de Meta dans Kadrey v. Meta Platforms (juin 2025), nota explicitement : « Les deux procès qui ont été tranchés aux États-Unis n'ont pas démontré d'extraction substantielle de données d'entraînement. ».

Autrement dit : les tribunaux ont tranché en faveur de « fair use » précisément parce que les plaignants n'avaient pas produit de preuve robuste que les modèles pouvaient reproduire des œuvres entières.

L'étude Stanford rectifie cette lacune empirique. En produisant des preuves de 95.8% extraction d'Harry Potter (un livre sous copyright), elle fournit exactement le type de témoignage technique que les tribunaux attendaient.

À cela s'ajoute la jurisprudence européenne. Le tribunal régional de Munich a jugé en novembre 2025 que la reproduction de paroles de chansons par ChatGPT constituait une infraction, et que la responsabilité repose sur l'entreprise (OpenAI), non l'utilisateur. Le jugement établit également que la mémorisation encodée dans les poids du modèle ET l'extraction en outputs constituent des copies légalement cognoscibles.


Memorization vs. Transformation : la distinction critique

L'étude Stanford établit une distinction fondamentale entre trois concepts :

1. Memorization : Les données d'entraînement ont été encodées dans les poids du modèle pendant l'entraînement.

2. Extraction : Ces données mémorisées peuvent être générées (quasi-)verbatim en réponse à des prompts.

3. Fair Use (défense) : L'utilisation de données pour l'entraînement, même sous copyright, constitue une « transformation » au sens juridique.

Les entreprises d'IA ont toujours défendu que seule la Phase 3 (transformation) compte légalement. Mais le jugement du juge Alsup dans Bartz v. Anthropic (juin 2025) établit une dichotomie : l'utilisation de livres légalement acquis peut être « fair use » ; le stockage d'une bibliothèque centrale de copies piratées = infraction.

C'est ici que NVIDIA devient vulnérable : contrairement à Meta qui a simplement « utilisé » des données pirates pour l'entraînement, NVIDIA a financé, contracté et distribué un accès commercial à une bibliothèque pirate. C'est du stockage et de la distribution d'infraction, non juste de l'utilisation pour transformation.


« Lorsqu'un modèle mémorise une œuvre et la reproduit mot pour mot, il n'y a aucune transformation du contenu. » — Lee et al. (cité dans l'étude Stanford)


Contenu de l’article

IA qui imagine l'IA dévorant les livres...


Responsabilité et divulgation : Stanford et les fournisseurs

Un dernier détail révélateur : l'étude Stanford a suivi un processus de divulgation responsable (responsible disclosure). Les chercheurs ont :

  • Notifié les fournisseurs (Anthropic, Google, OpenAI, xAI) le 9 septembre 2025
  • Accordé 90 jours avant publication publique (deadline : 8 décembre 2025)
  • Ils ont observé qu'Anthropic supprimait Claude 3.7 Sonnet du UI le 29 novembre 2025
  • ils ont trouvé que « la procédure fonctionne toujours sur certains systèmes » au 9 décembre 2025
  • Publié le 6 janvier 2026

Le fait qu'Anthropic ait supprimé Claude 3.7 Sonnet du UI (mais pas complètement l'API) suggère une réaction défensive partielle. Le timing coïncide avec les cas de class action en cours et la montée en puissance des poursuites.


Avant 2026, les entreprises d'IA pouvaient affirmer « nous ignorions que les données étaient piratées » et « nous ne savons pas si les modèles mémorisent réellement »… Maintenant, ce n’est plius possible


P.R.

KILLTHETAPE - Copyright © 2026 - Mentions légales

Loading…
Loading the web debug toolbar…
Attempt #