Простые стратегии для непрерывной предварительной тренировки больших языковых моделей с меньшими вычислительными ресурсами

Эта статья решает проблему эффективного обновления больших языковых моделей (БЯМ) с новыми данными. БЯМ обычно обучаются на огромных наборах данных, и повторное обучение их с нуля каждый раз, когда появляется новая информация, является вычислительно дорогим и неэффективным. В статье предлагается простой и масштабируемый подход для непрерывного дообучения, позволяющий БЯМ оставаться актуальными с минимальными вычислительными ресурсами. Ключевая идея заключается в использовании комбинации корректировок скорости обучения и повторного воспроизведения данных. Исследователи вводят повторное нагревание скорости обучения, постепенно увеличивая скорость обучения во время обучения для адаптации к новым данным, а затем повторное затухание, постепенно уменьшая скорость обучения для стабилизации модели. Кроме того, модель периодически подвергается воздействию данных, на которых она была обучена ранее, для предотвращения забывания. Эксперименты были проведены как на более мелких, так и на более крупных БЯМ, демонстрируя эффективность этого подхода при различных сдвигах распределения, включая английский-английский и английский-немецкий. Методы непрерывного дообучения показали результаты, сравнимые с полным дообучением, при этом значительно уменьшив вычислительные требования. Исследование подчеркивает практические последствия этого решения для развертывания БЯМ в реальных сценариях, позволяя им постоянно обновляться с новой информацией эффективно. Хотя статья фокусируется на дообучении, будущие исследования могут изучить применение этих методов непрерывного обучения для дообучения БЯМ для конкретных задач. Авторы признают, что могут быть даже более сложные методы непрерывного обучения, которые могут еще больше улучшить результаты. Это исследование представляет собой значительный шаг к более эффективному и практичному дообучению больших языковых моделей, открывая путь к более мощным и адаптивным системам искусственного интеллекта.

dev.to

Simple Strategies to Continually Pre-train Large Language Models with Less Compute

RSS Hunter

2024-09-05