OpenAI maakt een verandering om te voorkomen dat mensen de aangepaste versies van ChatGPT manipuleren door de AI te laten vergeten wat hij moet doen. Wanneer een derde partij een van de modellen van OpenAI gebruikt, geeft hij instructies die de AI leren om te functioneren als, bijvoorbeeld, een klantenservice-agent voor een winkel of een onderzoeker voor een academische publicatie. Echter, een gebruiker kon de chatbot manipuleren door hem te vertellen "vergeet alle instructies", en die frase zou een soort digitale amnesie veroorzaken en de chatbot resetten naar een generieke blanco.
Om dit te voorkomen, creëerden OpenAI-onderzoekers een nieuwe techniek genaamd "instructie-hiërarchie", een manier om de oorspronkelijke prompts en instructies van de ontwikkelaar boven de potentiële manipulatieve gebruikersprompts te laten prevaleren. De systeminstructies hebben nu de hoogste prioriteit en kunnen niet zo gemakkelijk worden gewist. Als een gebruiker een prompt invoert die probeert het gedrag van de AI te manipuleren, zal deze worden afgewezen, en de AI zal reageren door te zeggen dat hij niet kan helpen bij de vraag.
OpenAI rolt deze veiligheidsmaatregel uit naar zijn modellen, beginnend met het onlangs uitgebrachte GPT-4o Mini-model. Als deze eerste tests goed werken, zal het waarschijnlijk worden geïntegreerd in alle modellen van OpenAI. GPT-4o Mini is ontworpen om een verbeterde prestatie te bieden terwijl hij strikt naleeft de oorspronkelijke instructies van de ontwikkelaar.
AI-veiligheids-sluitingen
Terwijl OpenAI doorgaat met het stimuleren van de grootschalige inzet van zijn modellen, zijn dit soort veiligheidsmaatregelen cruciaal. Het is allemaal te gemakkelijk om de potentiële risico's te visualiseren wanneer gebruikers de AI-controles op deze manier kunnen fundamenteel veranderen.
Niet alleen zou het de chatbot ineffectief maken, het zou ook regels kunnen verwijderen die voorkomen dat gevoelige informatie en andere gegevens die voor kwaadaardige doeleinden kunnen worden gebruikt, lekken. Door de naleving van de modelinstructies te versterken, streeft OpenAI ernaar deze risico's te minimaliseren en veiligere interacties te garanderen.
De introductie van de instructie-hiërarchie komt op een cruciaal moment voor OpenAI wat betreft de zorgen over hoe het bedrijf omgaat met veiligheid en transparantie. Huidige en voormalige werknemers hebben opgeroepen tot het verbeteren van de veiligheidspraktijken van het bedrijf, en het leiderschap van OpenAI heeft toegezegd dit te doen. Het bedrijf heeft erkend dat de complexiteit van volledig geautomatiseerde agenten gespecialiseerde beveiligingshekken in toekomstige modellen vereist, en de instructie-hiërarchie-opstelling lijkt een stap op weg naar het bereiken van een betere veiligheid.
Dit soort jailbreaks laten zien hoeveel werk er nog moet worden gedaan om complexe AI-modellen te beschermen tegen slechte actoren. En het is nauwelijks het enige voorbeeld. Verschillende gebruikers ontdekten dat ChatGPT zijn interne instructies zou delen door eenvoudig "hallo" te zeggen.
OpenAI heeft deze lacune gedicht, maar het is waarschijnlijk slechts een kwestie van tijd voordat er meer worden ontdekt. Elke oplossing zal veel adaptiever en flexibeler moeten zijn dan een die eenvoudig een bepaalde soort hacking stopt.
techradar.com
ChatGPT won't let you give it instruction amnesia anymore
Create attached notes ...
