RSS Slashdot

Исследователи Apple оспаривают заявления об искусственном интеллекте с помощью контролируемых тестов головоломок

Исследователи Apple обнаружили, что передовые модели ИИ, такие как o3-mini и Claude 3.7, испытывают полное падение производительности при тестировании в сложных средах головоломок, что поднимает вопросы о их истинных способностях рассуждения. Исследование использовало головоломки, такие как «Башня Ханоя» и «Переправа через реку», чтобы изучить производительность моделей, а не математические стандарты. На низких уровнях сложности стандартные языковые модели превзошли своих аналогов, усиленных рассуждением. На средних уровнях сложности модели рассуждения продемонстрировали, но оба типа моделей испытывали полное падение точности на высоких уровнях сложности. Исследователи обнаружили, что модели рассуждения уменьшали свои вычислительные усилия по мере усложнения задач, несмотря на то, что они работали значительно ниже своих лимитов генерации токенов. Даже при предоставлении явных алгоритмов решения модели не смогли улучшить свою производительность. Исследователи отметили несовместимости в том, как модели использовали выученные стратегии на разных масштабах задач. Некоторые модели успешно справлялись с последовательностями в 100 шагов в одном виде головоломок, а в более простых сценариях терпели неудачу уже после пяти шагов. Результаты исследования противоречат общепринятым предположениям о прогрессе рассуждений ИИ. В целом, результаты поднимают вопросы о истинных способностях рассуждения крупных языковых моделей.
favicon
apple.slashdot.org
Apple Researchers Challenge AI Reasoning Claims With Controlled Puzzle Tests