Улучшение встраивания текста с помощью Большие языковые модели: анализ гиперпараметров обучения

Авторами статьи являются Лян Ван, Нан Ян, Сяолун Хуан, Линьцзюнь Ян, Ранган Маджумдер и Фуру Вэй, все из корпорации Microsoft. Статья доступна на arxiv под лицензией CC0 1.0 DEED. Статья разделена на разделы, включая аннотацию и введение, связанные работы, метод, эксперименты, анализ, заключение и ссылки. Раздел методов включает в себя синтетическое генерирование данных и обучение. Раздел экспериментов представляет результаты дообучения модели и оценки, а также многоязыкового поиска. Раздел анализа обсуждает необходимость контрастного дообучения и влияние гиперпараметров обучения. Результаты показывают, что инициализация Mistral-7B работает лучше, чем LLaMA-2 7B. Выбор типов пулинга и рангов LoRA не существенно влияет на производительность, но способ добавления инструкций имеет значительное влияние. Авторы приходят к выводу, что естественные языковые инструкции позволяют модели генерировать более дискриминативные вложения. Представленная структура обеспечивает способ настройки поведения текстовых вложений через инструкции без дообучения модели или перестроения индекса документов.

hackernoon.com

Improving Text Embeddings with Large Language Models: Analysis of Training Hyperparameters

RSS Hunter

2024-10-09