Forscher von Apple haben entdeckt, dass fortschrittliche KI-Modelle, wie OpenAIs o3-mini und Claude 3.7, bei Tests in komplexen Puzzle-Umgebungen eine vollständige Leistungsversagens erfahren, was Fragen über ihre tatsächlichen Vernunftfähigkeiten aufwirft. Die Studie verwendete Rätsel wie den Turm von Hanoi und das Flussübergangsproblem, um die Leistung der Modelle zu prüfen, anstatt standardmäßiger mathematischer Benchmark-Tests. Bei niedriger Komplexität übertrafen Standard-Sprachmodelle ihre vernunftgestützten Gegenstücke. Bei mittlerer Komplexität zeigten Vernunftmodelle Vorteile, aber beide Arten von Modellen erlebten einen vollständigen Genauigkeitszusammenbruch bei hoher Komplexität. Die Forscher fanden heraus, dass Vernunftmodelle ihre Rechenanstrengungen reduzierten, wenn Probleme schwieriger wurden, obwohl sie weit unter ihren Token-Generierungs-Limits arbeiteten. Selbst wenn ihnen explizite Lösungsalgorithmen bereitgestellt wurden, verbesserte sich die Leistung der Modelle nicht signifikant. Die Forscher stellten Inkonsistenzen fest, wie Modelle erlernte Strategien auf unterschiedliche Problemgrößen anwendeten. Einige Modelle konnten erfolgreich 100-Zug-Sequenzen in einem Rätseltyp bearbeiten, während sie in einfacheren Szenarien bereits nach fünf Zügen scheiterten. Die Ergebnisse der Studie widersprechen konventionellen Annahmen über den Fortschritt der KI-Vernunft. Insgesamt werfen die Ergebnisse Fragen über die tatsächlichen Vernunftfähigkeiten großer Sprachmodelle auf.
apple.slashdot.org
Apple Researchers Challenge AI Reasoning Claims With Controlled Puzzle Tests
