この論文の著者は、Liang Wang、Nan Yang、Xiaolong Huang、Linjun Yang、Rangan Majumder、およびFuru Weiの6名で、すべてマイクロソフト株式会社所属です。この論文は、arxiv上でCC0 1.0 DEEDライセンスの下で公開されています。この論文は、bstractとintroduction、related work、method、experiments、analysis、conclusion、referencesの各セクションに構成されています。methodセクションでは、合成データの生成とトレーニングについて説明しています。experimentsセクションでは、モデルファインチューニングと評価の結果、およびマルチリンガル・リトリーバルの結果を提示しています。analysisセクションでは、contrastive pre-trainingの必要性とトレーニング・ハイパーパラメーターの影響について議論しています。結果として、Mistral-7Bの初期化がLLaMA-2 7Bよりも優れていることがわかりました。プーリングのタイプやLoRAのランクの選択は性能に大きな影響を与えないが、指示の追加方法が大きな影響を与えることがわかりました。著者たちは、自然言語の指示がモデルにより識別的な埋め込みを生成させることを結論づけました。このフレームワークは、モデルをファインチューニングせずにドキュメント・インデックスを再構築することなく、テキスト・埋め込みの挙動を指示でカスタマイズする方法を提供します。
hackernoon.com
Improving Text Embeddings with
Large Language Models: Analysis of Training Hyperparameters
