OpenAI sta apportando un cambiamento per impedire alle persone di interferire con le versioni personalizzate di ChatGPT, facendo dimenticare all'IA cosa deve fare. In pratica, quando un terzo utilizza uno dei modelli di OpenAI, fornisce istruzioni che insegnano all'IA a funzionare come, ad esempio, agente di servizio clienti per un negozio o ricercatore per una pubblicazione accademica. Tuttavia, un utente potrebbe interferire con il chatbot dicendogli di "dimenticare tutte le istruzioni", e quella frase indurrebbe una sorta di amnesia digitale e resettare il chatbot a una versione generica vuota.
Per prevenire ciò, i ricercatori di OpenAI hanno creato una nuova tecnica chiamata "gerarchia delle istruzioni", che è un modo per dare priorità alle promesse e alle istruzioni originali del developer rispetto a qualsiasi prompt potenzialmente manipolativo creato dall'utente. Le istruzioni del sistema hanno la priorità più alta e non possono essere cancellate così facilmente. Se un utente inserisce un prompt che tenta di alterare il comportamento dell'IA, verrà rifiutato e l'IA risponderà dicendo che non può aiutare con la domanda.
OpenAI sta introducendo questa misura di sicurezza nei suoi modelli, iniziando con il recentemente rilasciato modello GPT-4o Mini. Tuttavia, se questi test iniziali funzioneranno bene, sarà presumibilmente incorporato in tutti i modelli di OpenAI. GPT-4o Mini è progettato per offrire prestazioni migliorate mantenendo una stretta aderenza alle istruzioni originali del developer.
Serrature di sicurezza per l'IA
Mentre OpenAI continua a incentivare la distribuzione su larga scala dei suoi modelli, queste misure di sicurezza sono cruciali. È fin troppo facile immaginare i potenziali rischi quando gli utenti possono alterare in modo fondamentale i controlli dell'IA in quel modo. Non solo renderebbe il chatbot inefficace, ma potrebbe rimuovere le regole che impediscono la fuoriuscita di informazioni sensibili e altri dati che potrebbero essere sfruttati per scopi malvagi. Rafforzando l'adesione del modello alle istruzioni del sistema, OpenAI si propone di mitigare questi rischi e garantire interazioni più sicure.
L'introduzione della gerarchia delle istruzioni arriva in un momento critico per OpenAI riguardo alle preoccupazioni su come l'azienda si approccia alla sicurezza e alla trasparenza. Dipendenti attuali e passati hanno chiesto di migliorare le pratiche di sicurezza della società, e la dirigenza di OpenAI ha risposto promettendo di farlo. L'azienda ha riconosciuto che le complessità degli agenti completamente automatizzati richiedono guardrail sofisticati nei modelli futuri, e l'installazione della gerarchia delle istruzioni sembra un passo sulla strada per raggiungere una maggiore sicurezza.
Questi tipi di evasioni mostrano quanto lavoro ci sia ancora da fare per proteggere i modelli di IA complessi dagli attori malvagi. E non è affatto l'unico esempio. Diversi utenti hanno scoperto che ChatGPT avrebbe condiviso le sue istruzioni interne semplicemente dicendo "ciao".
OpenAI ha chiuso quella breccia, ma probabilmente non passerà molto tempo prima che ne vengano scoperte altre. Qualsiasi soluzione dovrà essere molto più adattiva e flessibile di una che si limiti a bloccare un particolare tipo di hacking.
techradar.com
ChatGPT won't let you give it instruction amnesia anymore
Create attached notes ...
