ChatGPT lar deg ikke lenger gi det instruksjonsamnesi

OpenAI er i ferd med å innføre en endring for å stoppe folk fra å manipulere med egendefinerte versjoner av ChatGPT ved å la AI-en glemme hva den er ment å gjøre. Når en tredjepart bruker en av OpenAIs modeller, gir de den instruksjoner som lærer den å fungere som for eksempel en kundeserviceagent for en butikk eller en forsker for en akademisk publikasjon. Imidlertid kunne en bruker manipulere chattenboten ved å si "glem alt" og den frasen ville utløse en slags digital amnesi og resette chattenboten til en generisk blank. For å forhindre dette, har OpenAI-forskere utviklet en ny teknikk kalt "instruksjons-hierarki", som er en måte å prioritere utviklerens originale instruksjoner og prompter over eventuelle manipulative bruker-skapte prompter. System-instruksjonene har høyest prioritet og kan ikke slettes så lett lenger. Hvis en bruker sender en prompt som prøver å manipulere AIens atferd, vil den bli avvist, og AI-en svarer med å si at den ikke kan hjelpe med spørsmålet. OpenAI ruller ut denne sikkerhetsmekanismen til sine modeller, startende med den nylig lanserte GPT-4o Mini-modellen. Imidlertid, hvis disse initialtestene fungerer godt, vil det antagelig bli inkorporert over alle OpenAIs modeller. GPT-4o Mini er designet for å tilby forbedret ytelse samtidig som den opprettholder streng overholdelse av utviklerens originale instruksjoner. AI-sikkerhetslåser Ettersom OpenAI fortsetter å oppfordre til storstilt bruk av sine modeller, er disse typene sikkerhetsmekanismer avgjørende. Det er alt for lett å forestille seg de potensielle risikoene når brukere kan fundamentalt endre AIens kontroller på den måten. Ikke bare ville det gjøre chattenboten ineffektiv, det kunne også fjerne regler som forhindrer lekkasje av sensitive informasjoner og andre data som kan utnyttes for ondartige formål. Ved å styrke modellens overholdelse av system-instruksjoner, sikter OpenAI på å minimere disse risikoene og sikre tryggere interaksjoner. Innføringen av instruksjons-hierarki kommer på et kritisk tidspunkt for OpenAI med hensyn til bekymringer om hvordan selskapet nærmer seg sikkerhet og transparens. Nåværende og tidligere ansatte har krevet forbedringer av selskapets sikkerhetspraksis, og OpenAIs ledelse har svart med å love å gjøre det. Selskapet har erkjent at kompleksiteten ved fullt automatiserte agenter krever sofistikerte sikkerhetsmekanismer i fremtidige modeller, og instruksjons-hierarki-oppskriften ser ut til å være et skritt på veien mot å oppnå bedre sikkerhet. Disse typene jailbreaks viser hvor mye arbeid det ennå er å gjøre for å beskytte komplekse AI-modeller mot onde aktører. Og det er langt fra det eneste eksemplet. Flere brukere oppdaget at ChatGPT ville dele sine interne instruksjoner ved bare å si "hej." OpenAI plugget dette gapet, men det er sannsynlig bare et spørsmål om tid før flere blir oppdaget. Enhver løsning må være mye mer adaptiv og fleksibel enn en som bare stopper en bestemt type hacking.

techradar.com

ChatGPT won't let you give it instruction amnesia anymore

RSS Hunter

2024-07-29

Create attached notes ...