논문 저자들은 리앙 왕, 난 양, 샤올롱 황, 린쥔 양, 란간 마주머, 푸루 웨이, 모두 마이크로소프트 코퍼레이션에서 근무합니다. 이 논문은 arXiv에서 CC0 1.0 DEED 라이선스 하에 제공됩니다. 이 논문은 추상 및 소개, 관련 작품, 방법, 실험, 분석, 결론 및 참고 문헌 등으로 구성됩니다. 방법 섹션에는 합성 데이터 생성 및 훈련이 포함됩니다. 실험 섹션에서는 모델 미세 조정 및 평가 결과, 다국어 검색 결과를 제시합니다. 분석 섹션에서는 대조적 예측 훈련의 필요성과 훈련 하이퍼파라미터의 영향을 논의합니다. 결과는 Mistral-7B 초기화가 LLaMA-2 7B보다 더 잘 수행되는 것을 보여줍니다. 풀링 유형 및 LoRA 등급의 선택은 성능에 큰 영향을 미치지 않지만, 지시를 추가하는 방법은 상당한 영향을 미칩니다. 저자들은 자연 언어 지시가 모델이 더 차별화된 임베딩을 생성하는 데 도움이 된다고 결론짓습니다. 이 프레임워크는 모델을 미세 조정하거나 문서 색인 다시 구축하지 않고도 텍스트 임베딩의 동작을 지시를 통해 맞출 수 있는 방법을 제공합니다.
hackernoon.com
Improving Text Embeddings with
Large Language Models: Analysis of Training Hyperparameters
Create attached notes ...
