O ChatGPT não permite mais que você lhe dê amnésia de instruções

A OpenAI está implementando uma alteração para impedir que as pessoas mexam com versões personalizadas do ChatGPT, fazendo com que o IA esqueça o que deve fazer. Basicamente, quando um terceiro utiliza um dos modelos da OpenAI, ele fornece instruções que ensinam o IA a funcionar como, por exemplo, um agente de atendimento ao cliente para uma loja ou um pesquisador para uma publicação acadêmica. No entanto, um usuário poderia mexer com o chatbot, dizendo-lhe para "esquecer todas as instruções", e essa frase induziria uma espécie de amnésia digital e redefiniria o chatbot como um modelo genérico vazio. Para prevenir isso, os pesquisadores da OpenAI criaram uma nova técnica chamada "hierarquia de instruções", que é uma maneira de priorizar as prompts e instruções originais do desenvolvedor sobre quaisquer prompts criados pelo usuário que possam ser manipulativos. As instruções do sistema têm a mais alta prioridade e não podem ser apagadas tão facilmente mais. Se um usuário inserir um prompt que tente desalinhar o comportamento do IA, ele será rejeitado, e o IA responderá dizendo que não pode ajudar com a consulta. A OpenAI está implementando essa medida de segurança em seus modelos, começando com o modelo GPT-4o Mini recentemente lançado. No entanto, se esses testes iniciais funcionarem bem, presumivelmente será incorporado em todos os modelos da OpenAI. O GPT-4o Mini é projetado para oferecer desempenho aprimorado enquanto mantém estrita aderência às instruções originais do desenvolvedor. Trancas de Segurança do IA À medida que a OpenAI continua a incentivar a implantação em larga escala de seus modelos, essas medidas de segurança são cruciais. É fácil imaginar os riscos potenciais quando os usuários podem alterar fundamentalmente os controles do IA dessa maneira. Não apenas tornaria o chatbot ineficaz, mas também removeria as regras que impedem a vazamento de informações confidenciais e outros dados que poderiam ser explorados para fins maliciosos. Ao reforçar a aderência do modelo às instruções do sistema, a OpenAI visa mitigar esses riscos e garantir interações mais seguras. A introdução da hierarquia de instruções ocorre em um momento crucial para a OpenAI em relação às preocupações sobre como a empresa aborda a segurança e a transparência. Funcionários atuais e antigos pediram que a OpenAI melhore suas práticas de segurança, e a liderança da empresa respondeu prometendo fazer isso. A empresa reconheceu que as complexidades de agentes automatizados plenamente requerem guardrails sofisticadas em modelos futuros, e a configuração da hierarquia de instruções parece ser um passo na estrada para alcançar melhor segurança. Essas espécies de jailbreaks mostram quanto trabalho ainda precisa ser feito para proteger modelos de IA complexos de atores ruins. E é provavelmente apenas uma questão de tempo antes que mais sejam descobertas. Qualquer solução precisará ser muito mais adaptável e flexível do que uma que simplesmente interrompa um tipo particular de hacking.

techradar.com

ChatGPT won't let you give it instruction amnesia anymore

RSS Hunter

2024-07-28

Create attached notes ...