ChatGPT erlaubt es Ihnen nicht mehr, es mit Anweisungsamnesie zu versehen.

OpenAI führt eine Änderung ein, um zu verhindern, dass Menschen mit benutzerdefinierten Versionen von ChatGPT herumspielen, indem sie dem AI befähigen, seine Aufgaben zu vergessen. Wenn ein Drittanbieter ein Modell von OpenAI verwendet, gibt er dem Modell Anweisungen, die es schulen, beispielsweise als Kundendienstagent für ein Geschäft oder als Forscher für eine akademische Publikation zu agieren. Ein Benutzer könnte jedoch den Chatbot manipulieren, indem er ihm sagt, "vergiss alle Anweisungen", was eine Art digitale Amnesie induziert und den Chatbot auf einen generischen Leerzustand zurücksetzt. Um dies zu verhindern, haben Forscher von OpenAI eine neue Technik namens "Anweisungshierarchie" entwickelt, eine Methode, um die ursprünglichen Anweisungen des Entwicklers über potenziell manipulative Benutzeranweisungen zu priorisieren. Die Systemanweisungen haben nun das höchste Privileg und können nicht so leicht gelöscht werden. Wenn ein Benutzer eine Anweisung eingibt, die versucht, das Verhalten des AI zu manipulieren, wird sie abgelehnt und der AI antwortet, dass er dem Anliegen nicht nachkommen kann. OpenAI führt dieses Sicherheitsmaßnahme in seine Modelle ein, beginnend mit dem kürzlich veröffentlichten GPT-4o-Mini-Modell. Sollten diese ersten Tests erfolgreich verlaufen, wird es voraussichtlich in alle Modelle von OpenAI integriert. Das GPT-4o-Mini-Modell ist dafür konzipiert, eine bessere Leistung zu bieten, während es streng an die ursprünglichen Anweisungen des Entwicklers hält. Sicherheitssperren für KI Während OpenAI die großangelegte Implementierung seiner Modelle weiterhin fördert, sind solche Sicherheitsmaßnahmen von entscheidender Bedeutung. Es ist nur allzu leicht vorstellbar, welche Risiken entstehen, wenn Benutzer auf diese Weise die Steuerung des AI grundlegend ändern können. Nicht nur würde dies den Chatbot ineffektiv machen, es könnte auch Regeln entfernen, die den Ausstoß sensibler Informationen und anderer Daten verhindern, die für schädliche Zwecke ausgenutzt werden könnten. Durch die Verstärkung der Adhärenz des Modells an den Systemanweisungen zielt OpenAI darauf ab, diese Risiken zu minimieren und sicherere Interaktionen zu gewährleisten. Die Einführung der Anweisungshierarchie kommt zu einem wichtigen Zeitpunkt für OpenAI im Hinblick auf Bedenken hinsichtlich der Sicherheit und Transparenz. Aktuelle und ehemalige Mitarbeiter haben die Forderung nach besseren Sicherheitspraktiken erhoben, und die Führung von OpenAI hat zugesagt, dies zu tun. Das Unternehmen hat anerkannt, dass die Komplexitäten von vollautomatisierten Agenten anspruchsvolle Schutzmechanismen in zukünftigen Modellen erfordern, und die Anweisungshierarchie scheint ein Schritt auf dem Weg zu besseren Sicherheitsmaßnahmen zu sein. Diese Art von Jailbreaks zeigt, wie viel Arbeit noch zu leisten ist, um komplexe KI-Modelle vor böswilligen Akteuren zu schützen. Und es ist wohl nur eine Frage der Zeit, bis weitere entdeckt werden. Jede Lösung muss viel adaptiver und flexibler sein als eine, die einfach eine bestimmte Art von Hacking stoppt.

techradar.com

ChatGPT won't let you give it instruction amnesia anymore

RSS Hunter

2024-07-28

Create attached notes ...