OpenAI 正在更改 ChatGPT 的自定义版本,以防止用户恶意修改。基本上,当第三方使用 OpenAI 的模型时,他们会给它指令,让它作为例如商店的客服或学术出版物的研究员。然而,用户可以通过告诉它“忘记所有指令”,这种短语会引发一种数字健忘症,并将聊天机器人重置为通用的空白状态。
为了防止这种情况,OpenAI 的研究人员创建了一种名为“指令层次结构”的新技术。这是一种优先处理开发者原始提示和指令的方法,而不是用户创建的可能具有恶意的提示。系统指令拥有最高权限,不能轻易删除。如果用户输入了试图使 AI 行为不一致的提示,它将被拒绝,AI 将回答说它不能帮助该查询。
OpenAI 正在将这种安全措施应用于其模型,首先是在最近发布的 GPT-4o Mini 模型上。但是,如果这些初始测试效果好,它将在 OpenAI 的所有模型中实施。GPT-4o Mini旨在提供更好的性能,同时遵守开发者的原始指令。
AI 安全锁
随着 OpenAI继续鼓励其模型的大规模部署,这些安全措施变得至关重要。很容易想象,如果用户可以这样改变 AI 的控制,可能会带来的风险。这样做不仅会使聊天机器人无效,还可能删除防止泄露敏感信息和可能被恶意利用的数据的规则。通过加强模型对系统指令的遵守,OpenAI旨在减少这些风险,并确保更安全的交互。
指令层次结构的引入恰逢 OpenAI 关于安全和透明度的担忧之时。当前和前任员工都呼吁改善公司的安全实践,而 OpenAI 的领导层已经承诺这样做。该公司承认,完全自动化代理需要在未来模型中实施复杂的防护措施,而指令层次结构似乎是实现更好安全的一步。
这些 jailbreak 事件表明,仍然需要大量工作来保护复杂的 AI 模型免受恶意行为者的影响。这也不是唯一的例子。一些用户发现,只要说“hello”,ChatGPT 就会分享其内部指令。
OpenAI 填补了这个漏洞,但可能只是时间问题,更多漏洞将被发现。任何解决方案都需要比简单地停止某种类型的黑客攻击更加适应和灵活。
techradar.com
ChatGPT won't let you give it instruction amnesia anymore
Create attached notes ...
