1. Onderzoekers aan de Imperial College London hebben "copyrightvalstrikken" ontwikkeld om contentcreators te helpen bewijzen dat hun werk zonder hun toestemming in AI-modellen is gebruikt.
2. Deze valstrikken zijn stukjes verborgen tekst die schrijvers en uitgevers in staat stellen hun werk subtiel te markeren voor latere detectie.
3. De code voor het genereren en detecteren van valstrikken is beschikbaar op GitHub, en het team heeft plannen om een tool te bouwen waarmee gebruikers hun eigen valstrikken kunnen creëren en invoegen.
4. De valstrikken gebruiken een woordgenerator om duizenden synthetische zinnen te creëren, die vervolgens meerdere keren in een tekst worden ingebracht.
5. Om de valstrikken te detecteren, wordt een groot taalmodel gevoed met de synthetische zinnen en wordt de "verrassingsscore" ervan geanalyseerd om te bepalen of het de zinnen eerder heeft gezien.
6. Copyrightvalstrikken zijn een manier om lidmaatschapsinformatie-aanvallen uit te voeren op kleinere modellen, die minder vatbaar zijn voor deze aanvallen.
7. Het onderzoek toont aan dat het introduceren van valstrikken in tekstgegevens de effectiviteit van lidmaatschapsinformatie-aanvallen aanzienlijk kan verhogen.
8. Echter, een frase 1.000 keer herhalen in een document zou kunnen worden gedetecteerd door hen die AI-modellen trainen, waardoor de valstrikken potentieel onpraktisch zouden kunnen zijn.
9. Het verbeteren van copyrightvalstrikken zou kunnen bestaan uit het vinden van andere manieren om auteursrechtelijk beschermd materiaal te markeren of het verbeteren van lidmaatschapsinformatie-aanvallen.
10. De effectiviteit van copyrightvalstrikken zou een tijdelijke oplossing kunnen zijn en zou kunnen leiden tot een kat-en-muisspel tussen contentcreators en AI-modeltrainers.
technologyreview.com
A new tool for copyright holders can show if their work is in AI training data
Create attached notes ...
