Un lecteur anonyme cite un rapport de MIT Technology Review : Depuis le début de l'essor de l'IA générative, les créateurs de contenu ont affirmé que leur travail a été prélevé dans les modèles d'IA sans leur consentement. Mais jusqu'à présent, il était difficile de savoir si un texte spécifique avait réellement été utilisé dans un ensemble de données d'entraînement. Maintenant, ils ont un nouveau moyen de le prouver : des "pièges d'auteurs" développés par une équipe de l'Imperial College de Londres, des morceaux de texte cachés qui permettent aux auteurs et aux éditeurs de marquer subtilement leur travail pour détecter plus tard si celui-ci a été utilisé dans les modèles d'IA ou non. L'idée est similaire aux pièges qui ont été utilisés par les détenteurs de droits d'auteur tout au long de l'histoire - des stratégies comme l'inclusion de fausses localisations sur une carte ou de fausses mots dans un dictionnaire. [...]
Le code pour générer et détecter les pièges est actuellement disponible sur GitHub, mais l'équipe a également l'intention de construire un outil qui permettra aux gens de générer et d'insérer des pièges d'auteurs eux-mêmes. "Il y a une totale absence de transparence en ce qui concerne le contenu utilisé pour entraîner les modèles, et nous pensons que cela empêche de trouver le bon équilibre [entre les entreprises d'IA et les créateurs de contenu]", déclare Yves-Alexandre de Montjoye, professeur associé de mathématiques appliquées et d'informatique à l'Imperial College de Londres, qui a dirigé la recherche.
Les pièges ne sont pas infaillibles et peuvent être supprimés, mais De Montjoye affirme que l'augmentation du nombre de pièges rend significativement plus difficile et plus coûteux en ressources de les supprimer. "Que peuvent-ils supprimer tous ou non est une question ouverte, et cela va probablement être un peu de jeu du chat et de la souris", a-t-il déclaré.
tech.slashdot.org
'Copyright Traps' Could Tell Writers If an AI Has Scraped Their Work
Create attached notes ...
