Новый инструмент для владельцев авторских прав может показать, есть ли их работа в тренировочных дан

Новый инструмент для владельцев авторских прав может показать, есть ли их работа в тренировочных данных ИИ

1. Исследователи из Имперского колледжа Лондона разработали "ловушки для авторских прав", чтобы помочь создателям контента доказать, что их работа была использована в моделях ИИ без их согласия. 2. Эти ловушки представляют собой скрытый текст, который позволяет писателям и издателям незаметно маркировать свою работу для последующего обнаружения. 3. Код для генерации и обнаружения ловушек доступен на GitHub, и команда планирует создать инструмент для пользователей, чтобы они могли создавать и вставлять свои ловушки. 4. Ловушки используют генератор слов, чтобы создать тысячи синтетических предложений, которые затем вводятся в текст множество раз. 5. Для обнаружения ловушек крупная языковая модель подается синтетическим предложениям, и ее "удивление" оценивается, чтобы определить, видела ли она эти предложения раньше. 6. Ловушки для авторских прав - это способ выполнения атак на принадлежность в меньших моделях, которые менее подвержены таким атакам. 7. Исследование показывает, что введение ловушек в текстовые данные может значительно увеличить эффективность атак на принадлежность. 8. Однако повторение фразы 1000 раз в документе могло быть обнаружено теми, кто тренирует модели ИИ, что делает ловушки потенциально неэффективными. 9. Улучшение ловушек для авторских прав может включать поиск других способов маркировать защищенный контент или усиление атак на принадлежность. 10. Эффективность ловушек для авторских прав может быть временным решением и может привести к игре в кошки-мышки между создателями контента и тренерами моделей ИИ.

A new tool for copyright holders can show if their work is in AI training data technologyreview.com

RSS Hunter • 28 июл. 2024 г.