Verbesserung von Texteinschlüssen mit umfassenden Sprachmodellen: Analyse der Trainingsparameter

Die Autoren des Artikels sind Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder und Furu Wei, alle von Microsoft Corporation. Der Artikel ist auf arXiv unter der CC0 1.0 DEED Lizenz verfügbar. Der Artikel ist in Abschnitte unterteilt, darunter Zusammenfassung und Einleitung, verwandte Arbeiten, Methode, Experimente, Analyse, Schlussfolgerung und Referenzen. Der Methodenteil umfasst die Erzeugung synthetischer Daten und das Training. Der Abschnitt Experimente präsentiert die Ergebnisse des Modell-Feintunings und der Evaluierung sowie der mehrsprachigen Suche. Der Analyseteil diskutiert die Notwendigkeit des kontrastiven Vortrainings und den Einfluss von Trainingsparametern. Die Ergebnisse zeigen, dass die Initialisierung von Mistral-7B eine bessere Leistung erbringt als LLaMA-2 7B. Die Wahl der Pooling-Typen und LoRA-Ränge hat keinen signifikanten Einfluss auf die Leistung, aber die Art und Weise, wie Anweisungen hinzugefügt werden, hat einen erheblichen Einfluss. Die Autoren schließen daraus, dass natürliche Sprachbefehle es dem Modell ermöglichen, diskriminierendere Einbettungen zu generieren. Das Framework bietet eine Möglichkeit, das Verhalten von Texte eingebetteten durch Anweisungen anzupassen, ohne das Modell zu feinabstimmen oder den Dokumentindex neu zu erstellen.

hackernoon.com

Improving Text Embeddings with Large Language Models: Analysis of Training Hyperparameters

RSS Hunter

2024-10-09