1. Forscher an der Imperial College London haben "Copyright-Fallen" entwickelt, um Inhalte-Schöpfern zu helfen, nachzuweisen, dass ihre Arbeit in AI-Modellen ohne ihre Zustimmung verwendet wurde.
2. Diese Fallen sind versteckte Textstücke, mit denen Autoren und Verleger ihre Arbeit für eine spätere Erkennung markieren können.
3. Der Code für die Erzeugung und Erkennung von Fallen ist auf GitHub verfügbar, und das Team plant, ein Tool für Benutzer zu erstellen, mit dem sie ihre eigenen Fallen erstellen und einfügen können.
4. Die Fallen verwenden ein Wortgenerator, um Tausende synthetische Sätze zu erzeugen, die dann mehrmals in einen Text injiziert werden.
5. Um die Fallen zu erkennen, wird ein großes Sprachmodell mit den synthetischen Sätzen gefüttert und seine "Überraschung"-Punktzahl analysiert, um zu bestimmen, ob es die Sätze zuvor gesehen hat.
6. Copyright-Fallen sind eine Methode, um Mitgliedschafts-Verifikationsangriffe auf kleinere Modelle durchzuführen, die weniger anfällig für solche Angriffe sind.
7. Die Forschung zeigt, dass die Einführung von Fallen in Textdaten die Wirksamkeit von Mitgliedschafts-Verifikationsangriffen erheblich erhöht.
8. Es ist jedoch möglich, dass das Wiederholen eines Satzes 1.000 Mal in einem Dokument von jenen erkannt werden kann, die AI-Modelle trainieren, was die Fallen potenziell unpraktikabel macht.
9. Die Verbesserung von Copyright-Fallen könnte darin bestehen, andere Wege zu finden, um urheberrechtlich geschützte Inhalte zu markieren oder Mitgliedschafts-Verifikationsangriffe zu verstärken.
10. Die Wirksamkeit von Copyright-Fallen könnte eine vorübergehende Lösung sein und zu einem Katz-und-Maus-Spiel zwischen Inhalte-Schöpfern und AI-Modell-Trainern führen.
technologyreview.com
A new tool for copyright holders can show if their work is in AI training data
Create attached notes ...
