ChatGPT tillader dig ikke at give det instruktion amnesi længere

OpenAI foretager en ændring for at stoppe folk i at manipulere med tilpassede versioner af ChatGPT ved at gøre AI'en til at glemme, hvad den skal gøre. Når en tredjepart bruger en af OpenAI's modeller, giver de den instruktioner, der lærer den at fungere som f.eks. en kundeserviceagent for en butik eller en forsker for en akademisk udgivelse. Men en bruger kunne manipulere med chatbot'en ved at sige "glem alle instruktioner", og den frase ville inducere en form for digital amnesi og nulstille chatbot'en til en generisk blank. For at forebygge dette har OpenAI-forskere udviklet en ny teknik kaldet "instruktionshierarki", som er en måde at prioritere udviklerens originale prompts og instruktioner over eventuelle manipulative bruger-skabte prompts. System-instruktionerne har den højeste privilegie og kan ikke slettes så let længere. Hvis en bruger indtaster en prompt, der forsøger at manipulere AI'ens adfærd, vil den blive afvist, og AI'en vil svare med at sige, at den ikke kan hjælpe med spørgsmålet. OpenAI ruller denne sikkerhedsforanstaltning ud til sine modeller, startende med den nyligt udgivne GPT-4o Mini-model. Men hvis disse første tests fungerer godt, vil det formodentlig blive inkorporeret i alle OpenAI's modeller. GPT-4o Mini er designet til at tilbyde forbedret ydeevne samtidig med, at den opretholder streng overholdelse af udviklerens originale instruktioner. Sikkerhedslåse for AI Eftersom OpenAI fortsætter med at opfordre til storstilede installationer af sine modeller, er disse typer sikkerhedsforanstaltninger afgørende. Det er alt for let at forestille sig de potentielle risici, når brugere kan fundamentalt ændre AI'ens kontrol på den måde. Det ville ikke kun gøre chatbot'en ineffektiv, det kunne også fjerne reglerne, der forhindrer i at følsomme oplysninger og andre data, der kan udnyttes til ondsindede formål, lækker ud. Ved at styrke modelens overholdelse af system-instruktionerne, sigter OpenAI mod at mindske disse risici og sikre sikrere interaktioner. Introduktionen af instruktionshierarkiet kommer på et kritisk tidspunkt for OpenAI med hensyn til bekymringer om, hvordan virksomheden nærmer sig sikkerhed og transparens. Nuværende og tidligere medarbejdere har opfordret til at forbedre virksomhedens sikkerhedspraksis, og OpenAI's ledelse har reageret ved at love at gøre det. Virksomheden har erkendt, at kompleksiteten ved fuldautomatiserede agenter kræver sofistikerede sikkerhedsforanstaltninger i fremtidige modeller, og instruktionshierarkiet-setup virker som et skridt på vejen mod at opnå bedre sikkerhed. Disse typer jailbreaks viser, hvor meget arbejde der endnu skal gøres for at beskytte komplekse AI-modeller mod onde aktører. Og det er langt fra det eneste eksempel. Flere brugere opdagede, at ChatGPT ville dele sine interne instruktioner ved simpelthen at sige "hej." OpenAI stoppede det hul, men det er sandsynligvis kun et spørgsmål om tid, før flere bliver opdaget. Enhver løsning vil behøve at være langt mere adaptiv og fleksibel end en, der blot stopper en bestemt form for hacking.

techradar.com

ChatGPT won't let you give it instruction amnesia anymore

RSS Hunter

2024-07-29

Create attached notes ...