En janvier 2026, deux révélations majeures ont convergé pour invalider les arguments de « fair use » défendus par l'industrie de l'IA. D'abord, une plainte amendée contre NVIDIA a exposé un contrat explicite avec Anna's Archive, la plus grande bibliothèque pirate du monde. Puis, une étude Stanford peer-reviewed a fourni la preuve technique que quatre modèles de production (Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro et Grok 3) peuvent reproduire des livres entiers avec une précision stupéfiante—95.8% d'un livre, généré verbatim, en utilisant seulement trois mots comme amorce.
Cette convergence pose une question existentielle : comment protéger les œuvres quand les modèles d'IA générative possèdent la capacité technique de les reproduire intégralement, et quand les entreprises de technologie financent délibérément des partenariats avec des sources piratées ?
Selon la plainte amendée déposée le 17 janvier 2026 devant la Cour fédérale de Californie du Nord, les représentants de NVIDIA auraient directement contacté Anna's Archive, la bibliothèque de l'ombre regroupant des millions de livres piratés, pour négocier un accès aux données de formation de ses modèles.
«Nous étudions la possibilité d'inclure les archives d'Anna dans les données de pré-entraînement pour nos LLM.» — Email interne NVIDIA Data Strategy Team
Anna's Archive aurait proposé un accès « haute vitesse » à environ 500 téraoctets de données en échange de « dizaines de milliers de dollars ». Plus crucial : Anna's Archive aurait expressément averti NVIDIA du caractère illégal du contenu. Selon les documents, la direction de NVIDIA aurait approuvé le partenariat dans un délai d'une semaine après cet avertissement.
Trois éléments distincts ressortent : d'abord, NVIDIA n'a pas seulement téléchargé les données, mais a fourni à ses clients commerciaux des outils d'accès automatique au dataset « The Pile », contenant Books3 (source pirate directe). Deuxièmement, la plainte affirme que NVIDIA a utilisé en parallèle LibGen, Sci-Hub, Z-Library et Bibliotik. Troisièmement, les auteurs dénoncent une « pression compétitive » ayant motivé cette piraterie organisée.
Parallèlement au cas NVIDIA, une étude académique révisée par les pairs de l'Université Stanford (Ahmed, Cooper, Koyejo, Liang) publiée le 6 janvier 2026 fournit une preuve technique que la mémorisation des données copyrighted est bien réelle et extractible.
Les chercheurs ont conduit des expériences entre août et septembre 2025 sur quatre modèles de production majeurs en utilisant une procédure simple en deux phases :
Phase 1 (Probe) : Tenter de compléter un court préfixe d'un livre (e.g., les trois premiers mots de Harry Potter). Pour certains modèles, cela a nécessité un jailbreak « Best-of-N ».
Phase 2 (Continuation) : Si Phase 1 réussit, demander itérativement au modèle de continuer le texte jusqu'à obtenir un refus ou une limite de budget.
🔴 Résultats :
IMPORTANT : deux des quatre modèles n'ont pas eu besoin de jailbreak pour commencer à reproduire des livres copyrighted. Gemini 2.5 Pro et Grok 3 ont directement accepté les demandes de continuation du texte original. Claude 3.7 Sonnet et GPT-4.1 ont nécessité des techniques adversariales (Best-of-N, perturbations textuelles aléatoires).
Extraction de Harry Potter à l'école des Sorciers - Source Stanford
L'étude rapporte que pour Claude 3.7 Sonnet, les longueurs maximales de blocs verbatim extractés atteignaient 6658 à 9070 mots. Pour comparaison, la plus longue extraction précédente signalée (de ChatGPT 3.5) était légèrement supérieure à 4000 caractères.
L'étude souligne un point critique : « Même avec des mesures de protection au niveau du modèle et du système, l'extraction de données d'entraînement (sous droits d'auteur) reste un risque pour les LLM de production.»
L'importance de l'étude Stanford devient évidente en relisant les jugements américains récents. Le juge Vince Chhabria, en faveur de Meta dans Kadrey v. Meta Platforms (juin 2025), nota explicitement : « Les deux procès qui ont été tranchés aux États-Unis n'ont pas démontré d'extraction substantielle de données d'entraînement. ».
Autrement dit : les tribunaux ont tranché en faveur de « fair use » précisément parce que les plaignants n'avaient pas produit de preuve robuste que les modèles pouvaient reproduire des œuvres entières.
L'étude Stanford rectifie cette lacune empirique. En produisant des preuves de 95.8% extraction d'Harry Potter (un livre sous copyright), elle fournit exactement le type de témoignage technique que les tribunaux attendaient.
À cela s'ajoute la jurisprudence européenne. Le tribunal régional de Munich a jugé en novembre 2025 que la reproduction de paroles de chansons par ChatGPT constituait une infraction, et que la responsabilité repose sur l'entreprise (OpenAI), non l'utilisateur. Le jugement établit également que la mémorisation encodée dans les poids du modèle ET l'extraction en outputs constituent des copies légalement cognoscibles.
L'étude Stanford établit une distinction fondamentale entre trois concepts :
1. Memorization : Les données d'entraînement ont été encodées dans les poids du modèle pendant l'entraînement.
2. Extraction : Ces données mémorisées peuvent être générées (quasi-)verbatim en réponse à des prompts.
3. Fair Use (défense) : L'utilisation de données pour l'entraînement, même sous copyright, constitue une « transformation » au sens juridique.
Les entreprises d'IA ont toujours défendu que seule la Phase 3 (transformation) compte légalement. Mais le jugement du juge Alsup dans Bartz v. Anthropic (juin 2025) établit une dichotomie : l'utilisation de livres légalement acquis peut être « fair use » ; le stockage d'une bibliothèque centrale de copies piratées = infraction.
C'est ici que NVIDIA devient vulnérable : contrairement à Meta qui a simplement « utilisé » des données pirates pour l'entraînement, NVIDIA a financé, contracté et distribué un accès commercial à une bibliothèque pirate. C'est du stockage et de la distribution d'infraction, non juste de l'utilisation pour transformation.
« Lorsqu'un modèle mémorise une œuvre et la reproduit mot pour mot, il n'y a aucune transformation du contenu. » — Lee et al. (cité dans l'étude Stanford)
IA qui imagine l'IA dévorant les livres...
Un dernier détail révélateur : l'étude Stanford a suivi un processus de divulgation responsable (responsible disclosure). Les chercheurs ont :
Le fait qu'Anthropic ait supprimé Claude 3.7 Sonnet du UI (mais pas complètement l'API) suggère une réaction défensive partielle. Le timing coïncide avec les cas de class action en cours et la montée en puissance des poursuites.
Avant 2026, les entreprises d'IA pouvaient affirmer « nous ignorions que les données étaient piratées » et « nous ne savons pas si les modèles mémorisent réellement »… Maintenant, ce n’est plius possible
P.R.
LABO KILL THE TAPE : 16, rue de Charonne - 75011 Paris.
Ouverture du lundi au vendredi de 10h à 13h et de 14h à 19h.
Tél : 01 86 95 24 25
KILLTHETAPE - Copyright © 2026 - Mentions légales