Исследователи обнаружили, что переобучение только небольших частей моделей ИИ может сократить расход

Исследователи обнаружили, что переобучение только небольших частей моделей ИИ может сократить расходы и предотвратить забывание.

Предприятия часто сталкиваются с проблемой при дообучении больших языковых моделей (LLM), когда модели теряют ранее приобретенные способности, что известно как катастрофическое забывание. Исследователи из Университета Иллинойса в Урбана-Шампейн предложили новый метод для его предотвращения, сосредоточившись на переобучении только узких частей LLM. Этот подход направлен на снижение вычислительных затрат и сохранение существующего знания модели. Команда предполагает, что катастрофическое забывание — это не истинная потеря памяти, а побочный эффект смещения предвзятости. Они исследовали это, обучая две LLM для обработки изображений и текста, LLaVA и Qwen 2.5-VL, на конкретных задачах и наблюдая за их производительностью на отложенных эталонных тестах. Удивительно, но они обнаружили, что дообучение только слоев проекции самовнимания привело к изучению новых задач без снижения производительности на существующих. Исследование показывает, что дообучение многослойного перцептрона (MLP) может вызвать смещение выходных данных и временное забывание. Путем выборочного дообучения конкретных компонентов MLP при сохранении других замороженными, они достигли эффективного обучения с минимальным забыванием. Этот метод узкого переобучения предлагает более экономичный и контролируемый способ обновления LLM. Хотя текущее исследование ограничено моделями для обработки изображений и текста, ожидается, что полученные результаты будут применимы к другим LLM в различных модальностях.

Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru t.me

AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app

Researchers find that retraining only small parts of AI models can cut costs and prevent forgetting venturebeat.com

RSS Hunter • 13 окт. 2025 г.