RSS 슬래시닷

애플 연구원, 통제된 퍼즐 테스트로 AI 추론 주장에 도전

애플 리서치팀이 오픈AI의 o3-mini와 클라우드 3.7 같은 고급 AI 모델이 복잡한 퍼즐 환경에서 성능이 완전히 실패하는 것을 발견했습니다. 이 연구는 표준 수학 벤치마크가 아니라 타워 오브 하노이와 강 건너기 같은 퍼즐을 사용하여 모델의 성능을 검사했습니다. 낮은 복잡도 수준에서는 표준 언어 모델이 추론 강화 모델보다 우수했습니다. 중간 복잡도에서는 추론 모델이 우위를 보였지만, 높은 복잡도 수준에서는 모델의 정확도가 완전히 붕괴했습니다. 연구원들은 문제가 어려워질수록 추론 노력이 줄어드는 것을 발견했습니다. 이는 토큰 생성 제한 아래에서 작동하고 있음에도 불구하고 성능이 개선되지 않았다. 또한, 모델이 다양한 문제 크기에서 학습된 전략을 일관되게 적용하지 못하는 불일치를 발견했습니다. 어떤 모델은 한 유형의 퍼즐에서 100-move 시퀀스를 성공적으로 처리했지만, 더 쉬운 시나리오에서는 5-move 이후에 실패했습니다. 이 연구의 결과는 AI 추론 진행에 대한 일반적인 가정을 반박합니다. 전반적으로, 이 결과는 대규모 언어 모델의 실제 추론 능력에 대한 질문을 제기합니다.
favicon
apple.slashdot.org
Apple Researchers Challenge AI Reasoning Claims With Controlled Puzzle Tests
Create attached notes ...