Et nyt værktøj for ophavsretshavere kan vise, om deres værk er i AI-træningsdata

Følg

Et nyt værktøj for ophavsretshavere kan vise, om deres værk er i AI-træningsdata

1. Forskere ved Imperial College London har udviklet "copyright traps" for at hjælpe indholdsskabere med at bevise, at deres arbejde er blevet brugt i AI-modeller uden deres samtykke. 2. Disse fælder er stykker af skjult tekst, der tillader forfattere og udgivere at markere deres arbejde subtilt for senere opdagelse. 3. Koden for at generere og detektere fælder er tilgængelig på GitHub, og holdet planlægger at bygge en værktøj for brugere til at skabe og indsætte deres egne fælder. 4. Fælderne bruger en ordgenerator til at skabe tusindvis af syntetiske sætninger, som derefter bliver injiceret i en tekst flere gange. 5. For at detektere fælderne, bliver en stor sprogmodel fødet de syntetiske sætninger, og dens "overraskelses"-score bliver analyseret for at afgøre, om den har set sætningerne før. 6. Copyright-fælder er en måde at udføre medlemskabsinference-angreb på mindre modeller, som er mindre modtagelige for disse angreb. 7. Forskningen viser, at introduktionen af fælder i tekstdata kan øge effekten af medlemskabsinference-angreb betydeligt. 8. Imidlertid kan gentagelse af en frase 1.000 gange i en dokument muligvis blive opdaget af dem, der træner AI-modeller, hvilket gør fælderne potentielt upraktiske. 9. Forbedring af copyright-fælder kan involvere at finde andre måder at markere ophavsretligt indhold eller forbedre medlemskabsinference-angreb. 10. Effekten af copyright-fælder kan være en midlertidig løsning og kan føre til en katt-og-mus-spil mellem indholdsskabere og AI-modeltrænere.

A new tool for copyright holders can show if their work is in AI training data technologyreview.com

RSS Hunter • 29. jul. 2024