대규모 언어 모델(LLM)을 활용하는 개발자들은 두 가지 주요 도전 과제에 직면합니다. 첫 번째는 LLM 출력의 무작위성을 관리하는 것입니다. LLM의 이러한 예측 불가능성은 창의적인 콘텐츠 생성에 있어 자산이 될 수 있지만, 일관성과 사실 정확성이 필수적인 경우에는 장애가 됩니다. 이러한 무작위성은 특히 LLM이 잘못된 정보를 생성하는 "환각"을 일으키는 경우에 신뢰도를 저하합니다. 예를 들어 정보 요약 또는 마케팅 콘텐츠 생성과 같은 많은 작업에서는 올바른 답이 하나가 아니므로 LLM의 다양성은 도전 과제와 기회 모두를 제공합니다.
예를 들어, 한 금융 기관은 고객 대화 요약이 정확하고 간결하며 잘 작성된 것을 보장하기 위해 이러한 문제를 해결했습니다. 이를 위해 LLM에 의해 생성된 여러 개의 요약을 생성하고 Vertex Gen AI Evaluation Service를 사용하여 최적의 요약을 선택했습니다. LLM 출력의 무작위성을 제어하여 다양한 요약을 생성하면 최적의 응답을 찾을 가능성이 높아집니다. 이러한 응답은 쌍으로 평가하여 가장 정확하고 관련 있는 요약을 확인했습니다.
마지막으로 최상위 응답은 품질 표준을 충족하는지 확인하기 위해 점별 평가를 거쳤습니다. 이렇게 하면 LLM 출력의 다양성을 강점으로 전환하여 LLM 생성 콘텐츠의 품질, 신뢰성 및 신뢰도를 향상시킬 수 있습니다.
cloud.google.com
Enhancing LLM quality and interpretability with the Vertex Gen AI Evaluation Service
Create attached notes ...