OpenAI genomför en ändring för att stoppa människor från att manipulera anpassade versioner av ChatGPT genom att få AI att glömma vad det är menat att göra. När en tredje part använder en av OpenAIs modeller ger de den instruktioner som lär den att fungera som till exempel en kundtjänstagent för en butik eller en forskare för en akademisk publikation. Dock kunde en användare manipulera chatten genom att berätta för den att "glömma alla instruktioner", och den frasen skulle orsaka en sorts digital amnesi och återställa chatten till en generisk tom.
För att förhindra detta skapade OpenAI-forskare en ny teknik som kallas "instruktionshierarki", vilket är ett sätt att prioritera utvecklarens ursprungliga prompter och instruktioner över eventuella manipulativa användarprompter. Systeminstruktionerna har högsta privilegiet och kan inte raderas så lätt längre. Om en användare anger en prompt som försöker manipulera AI:s beteende kommer den att avvisas, och AI kommer att svara med att det inte kan hjälpa med frågan.
OpenAI rullar ut denna säkerhetsåtgärd till sina modeller, börjande med den nyligen släppta GPT-4o Mini-modellen. Men om dessa initiala tester fungerar bra kommer det förmodligen att införlivas över alla OpenAIs modeller. GPT-4o Mini är designad för att erbjuda förbättrad prestanda samtidigt som den upprätthåller strikt efterlevnad av utvecklarens ursprungliga instruktioner.
AI-säkerhetslås
När OpenAI fortsätter att uppmuntra stor skala distribution av sina modeller är dessa typer av säkerhetsåtgärder avgörande. Det är alltför lätt att föreställa sig de potentiella riskerna när användare kan fundamentalt ändra AI:s kontroller på det sättet.
Inte bara skulle det göra chatten ineffektiv, det kunde också ta bort regler som förhindrar läckage av känslig information och andra data som kunde utnyttjas för skadliga ändamål. Genom att förstärka modellens efterlevnad av systeminstruktioner siktar OpenAI på att minimera dessa risker och säkerställa säkrare interaktioner.
Införandet av instruktionshierarki kommer vid en kritisk tidpunkt för OpenAI beträffande oro över hur företaget närmar sig säkerhet och transparens. Nuvarande och tidigare anställda har krävt förbättrade säkerhetspraxis, och OpenAIs ledning har svarat med att lova att göra det. Företaget har erkänt att komplexiteten i fullt automatiserade agenter kräver sofistikerade skyddsmekanismer i framtida modeller, och instruktionshierarkiuppsättningen verkar som ett steg på vägen mot att uppnå bättre säkerhet.
Dessa typer av jailbreaks visar hur mycket arbete som fortfarande behöver göras för att skydda komplexa AI-modeller från dåliga aktörer. Och det är knappast det enda exemplet. Flera användare upptäckte att ChatGPT skulle dela med sig av sina interna instruktioner genom att bara säga "hej."
OpenAI täppte till det hålet, men det är förmodligen bara en tidsfråga innan fler upptäcks. Någon lösning kommer att behöva vara mycket mer adaptiv och flexibel än en som enbart stoppar en viss typ av hacking.
techradar.com
ChatGPT won't let you give it instruction amnesia anymore
Create attached notes ...
