1. Forskere ved Imperial College London har utviklet "copyright traps" for å hjelpe innholdsskapere med å bevise at deres arbeid har blitt brukt i AI-modeller uten deres samtykke.
2. Disse fangene er biter av skjult tekst som tillater forfattere og utgivere å merke sitt arbeid diskret for senere deteksjon.
3. Koden for å generere og detektere fanger er tilgjengelig på GitHub, og teamet planlegger å bygge et verktøy for brukere å lage og injisere sine egne fanger.
4. Fangene bruker et ordgenerator til å skape tusenvis av syntetiske setninger, som deretter injiseres i en tekst flere ganger.
5. For å detektere fangene, mates en stor språkmodell med de syntetiske setningene, og dens "overraskelses"-score analyseres for å fastslå om den har sett setningene før.
6. Copyright traps er en måte å utføre medlemskapsinferensangrep på mindre modeller, som er mindre utsatt for disse angrepene.
7. Forskningen viser at å introdusere fanger i tekstdata kan øke effekten av medlemskapsinferensangrep betydelig.
8. Imidlertid kan å gjenta en frase 1 000 ganger i et dokument oppdages av de som trener AI-modeller, noe som gjør fangene potensielt upraktiske.
9. Å forbedre copyright traps kan innebære å finne andre måter å merke opphavsrettslig innhold eller å forbedre medlemskapsinferensangrep.
10. Effekten av copyright traps kan være en midlertidig løsning og kan føre til en katt-og-mus-spill mellom innholdsskapere og AI-modelltrenerne.
technologyreview.com
A new tool for copyright holders can show if their work is in AI training data
Create attached notes ...
