Utvecklare som använder stora språkmodeller (LLM) står inför två huvudsakliga utmaningar: att hantera slumpmässigheten i LLM-utgångar och att motverka deras tendens att producera felaktig information. Slumpmässigheten i LLM kan vara både en kreativ tillgång och ett hinder, särskilt när konsekvens och faktisk precision är avgörande. Denna slumpmässighet, som är användbar för att generera kreativt innehåll, kan leda till "hallucinationer" där modellen med säkerhet producerar felaktig information, vilket minskar förtroendet för dess tillförlitlighet. Många uppgifter, som att sammanfatta information eller skapa marknadsföringsinnehåll, har inte ett enda rätt svar, vilket gör LLM:s variabilitet både till en utmaning och en möjlighet.
Ett finansinstitut, till exempel, behövde säkerställa att sammanfattningar av kundkonversationer var precisa, koncisa och välformulerade. De hanterade detta genom att generera flera LLM-svar och använda Vertex Gen AI Evaluation Service för att välja ut det bästa svaret. Genom att generera flera versioner av en sammanfattning med kontrollerad slumpmässighet ökade de sannolikheten för att hitta ett optimalt svar. Dessa svar jämfördes sedan med hjälp av parvisa utvärderingar för att identifiera det mest precisa och relevanta svaret.
Slutligen utvärderades det topprankade svaret med hjälp av punktvisa utvärderingar för att säkerställa att det uppfyllde kvalitetsstandarderna, med poäng och förklaringar för transparens. Denna arbetsflöde, som kan anpassas för olika användningsfall och modaliteter, transformerar LLM-variabiliteten till en styrka genom att systematiskt utvärdera och välja ut det bästa svaret, vilket förbättrar kvaliteten, tillförlitligheten och trovärdigheten hos LLM-genererat innehåll.
cloud.google.com
Enhancing LLM quality and interpretability with the Vertex Gen AI Evaluation Service
Create attached notes ...