RSS HackerNoon

Малые модели языка сокращают разрыв с большими моделями

Настроенная модель 3B превзошла базовую модель 70B в производстве. Это не исключение - это закономерность. Phi-4 превосходит GPT-4o по математике. Llama 3.2 работает на смартфонах. Стоимость вывода снизилась в 1000 раз с 2021 года. Сдвиг: тщательная курирование данных и архитектурная эффективность теперь заменяют сырой масштаб. Для большинства рабочих нагрузок в производстве правильно обученная небольшая модель обеспечивает эквивалентные результаты при доле стоимости.
favicon
hackernoon.com
Small Language Models are Closing the Gap on Large Models