Les chercheurs d'Apple ont découvert que les modèles d'IA avancés, tels que o3-mini d'OpenAI et Claude 3.7, connaissent une défaillance de performance complète lorsqu'ils sont testés dans des environnements de puzzle complexes, ce qui soulève des questions sur leurs véritables capacités de raisonnement. L'étude a utilisé des puzzles tels que la Tour de Hanoï et le problème de la traversée de la rivière pour examiner les performances des modèles par rapport à des benchmarks mathématiques standard. À des niveaux de complexité faibles, les modèles de langage standard ont surpassé leurs homologues améliorés pour le raisonnement. À des niveaux de complexité moyens, les modèles de raisonnement ont démontré des avantages, mais les deux types de modèles ont connu une chute d'exactitude complète à des niveaux de complexité élevés. Les chercheurs ont trouvé que les modèles de raisonnement réduisaient leur effort computationnel lorsque les problèmes devenaient plus difficiles, malgré fonctionnant bien en deçà de leurs limites de génération de jetons. Même lorsqu'ils étaient fournis avec des algorithmes de solution explicites, les performances des modèles n'ont pas amélioré de manière significative. Les chercheurs ont noté des incohérences dans la façon dont les modèles appliquaient des stratégies apprises à travers différentes échelles de problèmes. Certains modèles ont réussi à gérer des séquences de 100 mouvements dans un type de puzzle, tandis que d'autres ont échoué après seulement cinq mouvements dans des scénarios plus simples. Les résultats de l'étude contredisent les hypothèses conventionnelles sur les progrès du raisonnement de l'IA. Dans l'ensemble, les résultats soulèvent des questions sur les véritables capacités de raisonnement des grands modèles de langage.
apple.slashdot.org
Apple Researchers Challenge AI Reasoning Claims With Controlled Puzzle Tests
