RSS VentureBeat
Подписаться
Исследователи обнаружили, что переобучение только небольших частей моделей ИИ может сократить расходы и предотвратить забывание.
Предприятия часто сталкиваются с проблемой при дообучении больших языковых моделей (LLM), когда модели теряют ранее приобретенные способности, что известно как катастрофическое забывание. Исследователи из Университета Иллинойса в Урбана-Шампейн предложили новый метод для его предотвращения, сосредоточившись на переобучении только узких частей LLM. Этот подход направлен на снижение вычислительных затрат и сохранение существующего знания модели. Команда предполагает, что катастрофическое забывание — это не истинная потеря памяти, а побочный эффект смещения предвзятости. Они исследовали это, обучая две LLM для обработки изображений и текста, LLaVA и Qwen 2.5-VL, на конкретных задачах и наблюдая за их производительностью на отложенных эталонных тестах. Удивительно, но они обнаружили, что дообучение только слоев проекции самовнимания привело к изучению новых задач без снижения производительности на существующих. Исследование показывает, что дообучение многослойного перцептрона (MLP) может вызвать смещение выходных данных и временное забывание. Путем выборочного дообучения конкретных компонентов MLP при сохранении других замороженными, они достигли эффективного обучения с минимальным забыванием. Этот метод узкого переобучения предлагает более экономичный и контролируемый способ обновления LLM. Хотя текущее исследование ограничено моделями для обработки изображений и текста, ожидается, что полученные результаты будут применимы к другим LLM в различных модальностях.