OpenAI–Anthropic クロス・テストがジェイルブ... ノート
RSS VentureBeat

OpenAI–Anthropic クロス・テストがジェイルブレイクと悪用リスクを暴露 — GPT-5 評価に企業が追加すべきこと

OpenAIとAnthropicは互いのAIモデルをテストし、推論モデルは安全性に合致するほど良いものの、依然としてリスクが存在することを発見しました。
CdXz5zHNQW_QHJIIIltJj.png