一位匿名读者引用了MIT Technology Review的一篇报道:自动生成人工智能热潮开始以来,内容创作者一直认为,他们的作品被未经许可地用于人工智能模型中。但是,直到现在,很难确定特定的文本是否实际上被用于训练数据集中。现在,他们有了一种新的方法来证明它:伦敦帝国学院的一个团队开发的“版权陷阱”,这些隐藏的文本允许作家和出版商在后续检测中检查他们的作品是否被用于人工智能模型中。这种想法类似于版权持有人在整个历史中使用的陷阱策略--例如在地图上添加假地点或在词典中添加假词。[...]
生成和检测陷阱的代码目前可以在GitHub上找到,但该团队还计划开发一个工具,让人们自己生成和插入版权陷阱。“在人工智能模型中使用的内容完全缺乏透明度,我们认为这阻碍了找到正确平衡(between AI companies and content creators)”,伦敦帝国学院应用数学和计算机科学副教授Yves-Alexandre de Montjoye说,他领导了这项研究。
陷阱并不是万无一失的,可以被删除,但De Montjoye表示,增加陷阱的数量使删除变得更加困难和资源密集。“他们是否可以删除所有陷阱,这是一个开放的问题,这可能是一个猫和老鼠游戏”,他说。
tech.slashdot.org
'Copyright Traps' Could Tell Writers If an AI Has Scraped Their Work
Create attached notes ...
