Flux RSS HackerNoon

Améliorer les plongements de texte avec Grands modèles de langage : analyse des hyperparamètres d’entraînement

Les auteurs de l'article sont Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder et Furu Wei, tous de Microsoft Corporation. L'article est disponible sur arXiv sous la licence CC0 1.0 DEED. L'article est structuré en sections, y compris le résumé et l'introduction, les travaux connexes, la méthode, les expériences, l'analyse, la conclusion et les références. La section sur la méthode inclut la génération de données synthétiques et la formation. La section des expériences présente les résultats de la mise à jour du modèle et de l'évaluation, ainsi que la récupération multilingue. La section d'analyse discute de la nécessité de la formation contrastive et de l'impact des hyperparamètres de formation. Les résultats montrent que l'initialisation Mistral-7B fonctionne mieux que LLaMA-2 7B. Le choix des types de piscines et des rangs LoRA n'affecte pas significativement les performances, mais la manière d'ajouter des instructions a un impact considérable. Les auteurs concluent que les instructions en langage naturel permettent au modèle de générer des embeddings plus discriminants. Le cadre offre une manière de personnaliser le comportement des embeddings de texte via des instructions sans devoir mettre à jour le modèle ou reconstruire l'index de documents.
favicon
hackernoon.com
Improving Text Embeddings with Large Language Models: Analysis of Training Hyperparameters