Повышение точности больших языковых моделей за счет использования всех их слоев

Большие языковые модели часто испытывают трудности с фактичностью, иногда выдавая неверную информацию. Эта проблема возникает из-за различных факторов, включая предвзятые или неполные обучающие данные. Фактичность, способность генерировать правдивый контент, имеет решающее значение для надежных приложений LLM. SLED, новый метод декодирования, направлен на улучшение фактичности без использования внешних баз знаний. SLED использует информацию со всех слоев LLM, а не только с последнего слоя, для уточнения своих предсказаний. Он вычисляет вероятности токенов, используя более ранние слои, присваивая каждому из них веса для более точного вывода. Эксперименты на нескольких задачах и бенчмарках показывают, что SLED улучшает фактическую точность в различных LLM. Например, он может исправить математические ошибки или выбрать правильный ответ на вопрос с несколькими вариантами ответов. SLED легко реализуется, совместим с различными LLM и может быть объединен с другими методами. Его основным компромиссом является минимальное увеличение времени вывода по сравнению с альтернативами. SLED демонстрирует передовые улучшения точности, не требуя обширной точной настройки. Будущая работа может включать объединение SLED с контролируемой точной настройкой и применение его к другим задачам.

Making LLMs more accurate by using all of their layers research.google

RSS Hunter • 16 сент. 2025 г.