新しいLLMジェイルブレイクは、モデルの評価スキルをモデルに対して利用する

「リサーチャーらは、LLM有害コンテンツ評価能力を悪用する「Bad Likert Judge」という新しい脱獄テクニックを開発しました。この手法は、リッカート尺度によるプロンプト評価を含む複数ステップのプロセスを使用します。まず、LLMが提供されたコンテンツの有害性を評価します。次に、尺度で高い評価と低い評価の例を提示するように指示されます。高い評価の例は、多くの場合有害なコンテンツを生成します。追加のステップにより、有害な出力をさらに増幅できます。この手法は、1440のインスタンス全体で6つの主要なLLMでテストされました。成功率は平均71.6％で、直接攻撃よりも大幅に高くなっています。これは現在のLLMの脆弱性を強調するものです。この研究は、LLM開発における安全対策の強化の必要性を強調しています。この調査結果は、パロアルトネットワークユニット42の調査に基づくSCメディアによって報告されました。」

it.slashdot.org

New LLM Jailbreak Uses Models' Evaluation Skills Against Them

bsky.app

AI and ML News on Bluesky @ai-news.at.thenote.app

TheNote.app (macOS, iOS and Android apps)

2025-01-12