大型言語モデル(LLM)を活用する開発者が直面している2つの主要な課題は、LLMの出力のランダムさを管理し、誤った情報を生成する傾向を軽減することです。LLMのランダムさは、創造的なコンテンツを生成するために役割を果たす一方で、信頼性が高く、事実上の正確さが必要な場合には、問題を引き起こす可能性があります。このランダムさは、特に、情報を要約したり、マーケティング・コンテンツを作成するようなタスクで、正しい答えが1つもない場合には、機会と課題の両方を生み出します。
例えば、金融機関は、顧客との会話の要約が正確でコンパクトで、文才があり、信頼性が高くなることを目指しました。この目的を達成するために、LLMが生成する複数の応答をVertex Gen AI Evaluation Serviceで評価し、最適な応答を選択しました。ランダムさを制御しながら複数の要約を生成し、最適な応答を探す確率を高めることで、LLMの変動性を強みに変えました。
最後に、最上位の応答が品質基準に満たしているかどうかを点評で確認し、透明性のためにスコアと説明を提供しました。このワークフローは、異なるユースケースやモーダリティーに適応可能で、LLMが生成するコンテンツの品質、信頼性、信頼性を向上させるために、LLMの変動性を系統的に評価し、選択します。
cloud.google.com
Enhancing LLM quality and interpretability with the Vertex Gen AI Evaluation Service
Create attached notes ...