Почему крошечный VibeThinker-3B от Weibo снова заставляет мир ИИ спорить о бенчмарках

Исследовательская группа Sina Weibo представила VibeThinker-3B, языковую модель всего с 3 миллиардами параметров, утверждая, что она конкурирует или превосходит более крупные модели от ведущих ИИ-лабораторий, таких как Google DeepMind и OpenAI. VibeThinker-3B продемонстрировала исключительные результаты на сложных математических и кодовых бенчмарках, включая заметное выступление на экзамене AIME 2026. Эти результаты вызвали значительный ажиотаж, но также и широкие сомнения в сообществе ИИ. Критики сомневаются, отражают ли результаты бенчмарков реальный прогресс или являются результатом "benchmaxxing", когда модели оптимизируются для конкретных тестов. Исследовательская группа предлагает "Гипотезу параметрического сжатия-покрытия", предполагая, что проверяемые задачи рассуждения требуют меньше параметров, чем приобретение широких знаний. Они признают более низкую производительность VibeThinker-3B на бенчмарках, требующих обширных знаний, таких как GPQA-Diamond. Модель VibeThinker-3B является развитием предыдущих работ, основанной на Qwen2.5-Coder-3B от Alibaba, и обучена с помощью многоэтапного конвейера, включающего контролируемую дообучение и обучение с подкреплением. Конкретные методы обучения включают обучение по программе, обучение с подкреплением, управляемое границами возможностей, и перераспределение вознаграждений для эффективного рассуждения. Несмотря на усилия по предотвращению загрязнения данных, реальные пользовательские тесты предполагают разрыв между производительностью на бенчмарках и практической полезностью. Однако даже критики признают, что достижение таких результатов на бенчмарках с такой маленькой моделью является впечатляющим инженерным достижением. Это развитие бросает вызов преобладающей "гипотезе масштабирования", согласно которой более крупные модели всегда лучше, предполагая, что компактные модели могут преуспевать в конкретных областях рассуждений. Исследовательская группа подчеркивает, что VibeThinker-3B не предназначена для замены больших универсальных моделей, а для дополнения масштабирования параметров как исследовательского направления.

Why Weibo’s tiny VibeThinker-3B has the AI world arguing over benchmarks again venturebeat.com

RSS Hunter • 17 июн.