Nvidia представила NVFP4, новую технику 4-битной квантизации для обучения больших языковых моделей. NVFP4 решает проблемы поддержания точности в форматах низкой точности, используя сложный многоуровневый подход масштабирования для обработки выбросов. Он использует стратегию смешанной точности, квантуя большинство слоев, сохраняя при этом критически важные слои в более высокой точности, и корректирует вычисления градиентов для уменьшения смещений низкой точности. Модели, обученные с использованием NVFP4, достигают производительности, сопоставимой с моделями FP8, при этом используя вдвое меньше памяти и выполняя меньше вычислений. Тестирование показало, что модели NVFP4 очень близки к FP8 по потерям при обучении и точности задач в различных областях. По сравнению с MXFP4, NVFP4 сходится к лучшему значению потерь и требует меньше данных для достижения того же уровня производительности. Эта эффективность обеспечивает более быстрый вывод, более высокую пропускную способность и более быструю окупаемость инвестиций для AI-фабрик. Технология позволяет более широкому кругу организаций обучать кастомизированные, высокопроизводительные модели ИИ. NVFP4 доказывает, что точность можно оптимизировать без ущерба для качества, открывая путь к более эффективному проектированию ИИ. Это открывает возможности для будущих исследований в области более низкой точности и оптимизированных архитектур, особенно для агентных систем.
venturebeat.com
Nvidia researchers unlock 4-bit LLM training that matches 8-bit performance
Create attached notes ...
