RSS スラッシュドット

アップルの研究者、制御されたパズルテストでAIの推論能力に関する主張に異議を唱える

Appleの研究者たちは、OpenAIのo3-miniやClaude 3.7といった高度なAIモデルが、複雑なパズル環境でのテストにおいて完全なパフォーマンスの失敗を経験することを発見し、それらの真の推論能力について疑問を呈しています。この研究では、標準的な数学的ベンチマークではなく、ハノイの塔や川渡りなどのパズルを使用して、モデルのパフォーマンスを検証しました。低レベルの複雑さでは、標準的な言語モデルが、推論能力を強化したモデルよりも優れたパフォーマンスを示しました。中程度の複雑さでは、推論モデルが優位性を示しましたが、どちらのタイプのモデルも、高レベルの複雑さでは完全な精度崩壊を経験しました。研究者たちは、推論モデルが、問題が難しくなるにつれて、トークン生成の制限を大幅に下回って動作しているにもかかわらず、計算量を削減することを発見しました。明示的な解決アルゴリズムが提供された場合でも、モデルのパフォーマンスは大幅に改善しませんでした。研究者たちは、モデルが学習した戦略を異なる問題規模にどのように適用するかに矛盾があることに気づきました。あるモデルは、あるパズルタイプでは100手の手順を正常に処理できた一方で、より単純なシナリオではわずか5手で失敗しました。この研究の結果は、AIの推論能力の進歩に関する従来の仮定に反しています。全体として、この結果は、大規模言語モデルの真の推論能力について疑問を投げかけています。
favicon
apple.slashdot.org
Apple Researchers Challenge AI Reasoning Claims With Controlled Puzzle Tests
Create attached notes ...