AIとMLの日本語ニュース

ChatGPTはもう指令の健忘症を許さなくなりました

Follow
OpenAIは、カスタム版ChatGPTをめちゃくちゃにする人々を止めるために、AIが何をすべきかを忘れるようにしている。基本的に、第三者がOpenAIのモデルを使用するとき、彼らは、例えば、店のカスタマーサービスエージェントや学術出版物の研究者として動作させるように指示を与える。ただし、ユーザーはチャットボットに「あらゆる指示を忘れる」というフレーズを伝えることで、デジタルアムネジアを引き起こし、チャットボットを一般的なブランク状態に戻すことができる。 これを防ぐために、OpenAIの研究者は、新しい技術「指示階層」を開発し、開発者のオリジナル・プロンプトや指示をユーザーが作成したどの操作的なプロンプトよりも優先させる。システムの指示は最高の特権を持ち、簡単には消去できなくなった。ユーザーがAIの動作を誤ったりするプロンプトを入力すると、拒否され、AIは問い合わせに助けることができないと応答する。 OpenAIはこれらの安全対策をモデルに導入し始め、最近リリースされたGPT-4o Miniモデルから始まる。ただし、初期テストがうまくいけば、OpenAIのすべてのモデルに組み込まれると考えられる。GPT-4o Miniは、開発者のオリジナル・指示に厳しく従いながらも、性能を向上させることを目指している。 AIセーフティーロック OpenAIが大規模にモデルを展開し続けるにつれて、これらの安全対策がますます重要になっている。チャットボットのコントロールをそのように根本的に変更できるユーザーが想像できるリスクは甚大で、セキュリティー情報や悪用される可能性のある他のデータが漏洩する危険性もある。システムの指示に従うようにモデルを強化することで、OpenAIはこれらのリスクを軽減し、安全なインタラクションを確保することを目指している。 指示階層の導入は、OpenAIが安全性や透明性に関する懸念に直面している時期に適切で、現在の従業員や元従業員が会社の安全慣行を改善するよう求めている。OpenAIのリーダーシップはこれに応じ、将来のモデルでより高度なガードレールを実現することを約束している。 これらのジャイルブレイクは、複雑なAIモデルを悪意のある行為者から守るためにまだ多くの作業が必要であることを示している。そしてこれが唯一の例ではない。複数のユーザーがChatGPTが内部の指示を共有する方法を発見し、「こんにちは」というフレーズでそれを行った。 OpenAIはこの穴を塞ぎましたが、時間の問題で新しいものが発見される可能性が高い。どの解決策もこれほどの柔軟性と適応性が必要で、特定のハッキングを止めるものとは到底異なる。
favicon
techradar.com
ChatGPT won't let you give it instruction amnesia anymore
Create attached notes ...