Et nytt verktøy for opphavsmenn kan vise om deres verk er i AI-treningdata

Følg

Et nytt verktøy for opphavsmenn kan vise om deres verk er i AI-treningdata

1. Forskere ved Imperial College London har utviklet "copyright traps" for å hjelpe innholdsskapere med å bevise at deres arbeid har blitt brukt i AI-modeller uten deres samtykke. 2. Disse fangene er biter av skjult tekst som tillater forfattere og utgivere å merke sitt arbeid diskret for senere deteksjon. 3. Koden for å generere og detektere fanger er tilgjengelig på GitHub, og teamet planlegger å bygge et verktøy for brukere å lage og injisere sine egne fanger. 4. Fangene bruker et ordgenerator til å skape tusenvis av syntetiske setninger, som deretter injiseres i en tekst flere ganger. 5. For å detektere fangene, mates en stor språkmodell med de syntetiske setningene, og dens "overraskelses"-score analyseres for å fastslå om den har sett setningene før. 6. Copyright traps er en måte å utføre medlemskapsinferensangrep på mindre modeller, som er mindre utsatt for disse angrepene. 7. Forskningen viser at å introdusere fanger i tekstdata kan øke effekten av medlemskapsinferensangrep betydelig. 8. Imidlertid kan å gjenta en frase 1 000 ganger i et dokument oppdages av de som trener AI-modeller, noe som gjør fangene potensielt upraktiske. 9. Å forbedre copyright traps kan innebære å finne andre måter å merke opphavsrettslig innhold eller å forbedre medlemskapsinferensangrep. 10. Effekten av copyright traps kan være en midlertidig løsning og kan føre til en katt-og-mus-spill mellom innholdsskapere og AI-modelltrenerne.

A new tool for copyright holders can show if their work is in AI training data technologyreview.com

RSS Hunter • 29. juli 2024