NVIDIA : Les livres protégés par des droits d’auteur ne sont que des corrélations statistiques pour nos modèles d’IA

NVIDIA : Les livres protégés par des droits d’auteur ne sont que des corrélations statistiques pour nos modèles d’IA

Au cours des deux dernières années, les développements en matière d’intelligence artificielle ont progressé à un rythme rapide.
Il s’agit notamment de modèles linguistiques de grande taille, qui sont généralement formés sur de vastes ensembles de textes ; plus il y en a, mieux c’est.
Lorsque l’IA s’est imposée, il est apparu que les titulaires de droits n’étaient pas toujours ravis que leurs œuvres soient utilisées pour entraîner l’IA. C’est le cas des photographes, des artistes, des sociétés de musique, des journalistes et des auteurs, dont certains ont formé des groupes pour intenter des actions en justice pour violation du droit d’auteur afin de protéger leurs droits.
Les auteurs de livres, en particulier, se sont plaints de l’utilisation de livres piratés comme matériel d’entraînement. Dans diverses actions en justice, des sociétés telles que OpenAI, Microsoft, Meta et NVIDIA sont accusées d’utiliser l’ensemble de données « Books3 », extraites de la bibliothèque du site « pirate » Bibliotik.
Après que les accusations concernant Books3 ont fait la une des journaux, de nombreuses entreprises spécialisées dans l’IA ont cessé d’utiliser cette source. Dans le même temps, les entreprises de lutte contre le piratage ont aidé les éditeurs à mettre hors ligne les bibliothèques présumées malhonnêtes afin d’éviter d’autres dommages.
Ces efforts de mise en application ne se limitent pas non plus à Books3, ni à la langue anglaise d’ailleurs ; en début de semaine, le groupe anti-piratage BREIN a indiqué qu’il avait aidé à retirer un ensemble de données en langue néerlandaise.

Des auteurs attaquent NVIDIA en justice

Au début de l’année, plusieurs auteurs ont intenté un procès à NVIDIA pour violation présumée des droits d’auteur. Le recours collectif allègue que les modèles d’intelligence artificielle de la société ont été formés sur des œuvres protégées par le droit d’auteur et mentionne spécifiquement les données de Books3. Étant donné que cela s’est produit sans autorisation, les détenteurs de droits demandent une compensation.
Le procès a été suivi d’un autre presque identique quelques semaines plus tard, et NVIDIA a l’intention de contester les deux devant les tribunaux en niant les allégations d’infraction au droit d’auteur.
Dans sa réponse initiale, déposée il y a quelques semaines, NVIDIA n’a pas nié avoir utilisé l’ensemble de données Books3. Comme beaucoup d’autres entreprises spécialisées dans l’IA, elle estime que l’utilisation de données protégées par le droit d’auteur pour l’entraînement de l’IA est un excellent exemple d’utilisation équitable, en particulier lorsque le résultat du modèle ne reproduit pas d’œuvres protégées par le droit d’auteur.
Les auteurs ont manifestement un point de vue différent. Ils affirment que NVIDIA a volontairement copié une archive de livres piratés pour entraîner son modèle d’IA commercial et demandent des dommages-intérêts pour violation directe du droit d’auteur.

Procès dans deux ans… ?

Cette semaine, les auteurs et NVIDIA ont déposé une déclaration commune de gestion de l’affaire auprès d’un tribunal californien, établissant un calendrier préliminaire. Cela montre que les deux parties ont l’intention de prendre leur temps pour mener à bien le procès.
Les auteurs s’attendent à ce que les parties aient besoin de jusqu’à octobre de l’année prochaine pour rassembler les faits et les preuves au cours de la phase de découverte. Un éventuel procès devant jury est prévu une année entière plus tard, en novembre 2026.

NVIDIA n’a pas d’échéance précise pour le procès, mais souligne que la question de l’usage loyal est essentielle et qu’elle doit être traitée rapidement et efficacement. Pour commencer, la société a l’intention de déposer une demande de jugement sommaire d’ici un an, après quoi les deux parties devraient avoir plus de clarté.
Faits, chiffres et corrélations statistiques
Outre le calendrier, NVIDIA a également fait part de son point de vue sur l’affaire. La société estime que les entreprises d’IA devraient être autorisées à utiliser des livres protégés par le droit d’auteur pour entraîner leurs modèles d’IA, car ces livres sont constitués de « faits et d’idées non protégés par le droit d’auteur » qui sont déjà dans le domaine public.
L’argument peut paraître surprenant à première vue : les auteurs détiennent les droits d’auteur et, en ce qui les concerne, l’utilisation de copies pirates engage leur responsabilité en tant que contrefacteur direct. Cependant, NVIDIA explique que ses modèles d’IA ne considèrent pas ces œuvres de cette manière.
L’entraînement de l’IA n’implique aucune compétence en matière de lecture de livres, ni même une compréhension de base de l’intrigue. Il s’agit simplement de mesurer des corrélations statistiques et de les ajouter au modèle.
« La formation mesure les corrélations statistiques dans l’ensemble, sur un vaste ensemble de données, et les codifie dans les paramètres d’un modèle. Les plaignants n’essaient pas de revendiquer un droit d’auteur sur ces corrélations statistiques, affirmant plutôt que les données d’entraînement elles-mêmes sont « copiées » à des fins de contrefaçon », écrit NVIDIA.

En d’autres termes, NVIDIA affirme que ses modèles d’IA n’utilisent pas les livres comme le font les humains ; ils ne les reproduisent pas non plus. Elle se contente d’examiner les « faits et idées » contenus dans les livres, en « transformant » leur objectif initial pour construire un modèle d’IA complexe. Il s’agit là d’un usage loyal, affirment-ils.
« Les plaignants ne peuvent pas utiliser le droit d’auteur pour empêcher l’accès aux faits et aux idées, et le processus de formation hautement transformatif est entièrement protégé par la doctrine bien établie de l’usage loyal.
« En effet, accepter la théorie des plaignants signifierait qu’un auteur pourrait protéger par le droit d’auteur les règles de grammaire ou les faits de base concernant le monde. Cela n’a jamais été la loi, pour de bonnes raisons », ajoute NVIDIA.

La bataille du Fair Use

Selon NVIDIA, le procès se résume à deux questions connexes. Tout d’abord, la question de savoir si l’action en contrefaçon directe des auteurs est essentiellement une tentative de revendiquer des droits d’auteur sur des faits et de la grammaire. Deuxièmement, le fait de faire des copies des livres constitue-t-il un usage loyal ?
Le fabricant de puces électroniques estime qu’il n’a rien fait de mal et cite plusieurs affaires qui figureront probablement dans ses prochains dossiers. Il s’agit notamment du procès Authors Guild v. Google, dans lequel la cour d’appel a conclu que la copie de livres pour créer une base de données consultable constituait un usage loyal. En conséquence, Google Books existe toujours aujourd’hui.
NVIDIA n’est pas la seule société qui s’appuiera sur une défense fondée sur l’usage loyal en réponse aux plaintes pour violation du droit d’auteur liées à l’IA. De nombreuses autres sociétés adoptent la même approche et son succès sera déterminant pour l’avenir du développement de modèles d’IA.
Ce qui rend ces questions encore plus complexes, c’est que les modèles et les technologies d’IA ont des applications différentes ; ainsi, ce qui peut être considéré comme un usage loyal dans un cas, peut être considéré comme une violation du droit d’auteur dans un autre.
Par exemple, en début de semaine, un tribunal fédéral californien a statué que l’action en justice intentée par des artistes visuels contre DeviantArt, Midjourney, Runway AI et Stability AI pouvait aller de l’avant. Ces défendeurs sont également accusés de violation des droits d’auteur, mais le procès porte sur des images et des sorties d’images.
Compte tenu des parties impliquées et des dommages potentiels en jeu, ces procès vont occuper les tribunaux pendant des années. Même après les premiers verdicts « définitifs », il y aura des appels et certaines questions pourraient finir devant la Cour suprême.

Entre-temps, les actions de NVIDIA et d’autres sociétés spécialisées dans l’IA seront suivies de près par les observateurs du droit d’auteur. En effet, des articles de presse récents accusent NVIDIA, entre autres, d’avoir récupéré des vidéos et des transcriptions de YouTube pour entraîner leurs modèles respectifs.

LuLu

Laisser un commentaire