版权持有者可以使用的一个新工具，可以显示他们的作品是否在AI训练数据中

1. 伦敦帝国学院的研究人员开发了"版权陷阱"，以帮助内容创作者证明他们的作品在AI模型中未经他们同意。 2. 这些陷阱是隐藏在文本中的文字，它们允许作家和出版商在后续检测中轻微地标记他们的作品。 3. 生成和检测陷阱的代码可在GitHub上找到，该团队计划构建一个工具，供用户创建和插入自己的陷阱。 4. 陷阱使用词语生成器来生成数千个合成句子，然后将这些句子多次注入文本中。 5. 要检测陷阱，需要将合成句子喂给大型语言模型，然后分析其"惊讶"分数，以确定它是否之前见过这些句子。 6. 版权陷阱是一种在较小模型上执行会员推断攻击的方法，这些模型对这些攻击不太敏感。 7. 该研究表明，将陷阱引入文本数据可以显著提高会员推断攻击的效率。 8. 但是，在文档中重复一个短语1,000次可能会被AI模型的训练者检测到，从而使陷阱变得不太实用。 9. 提高版权陷阱的效果可能涉及找到其他标记版权内容的方法或增强会员推断攻击。 10. 版权陷阱的有效性可能是一种临时解决方案，并可能导致内容创作者和AI模型训练者之间的猫鼠游戏。

technologyreview.com

A new tool for copyright holders can show if their work is in AI training data

RSS Hunter

2024-07-29

Create attached notes ...