Udviklerne, der anvender store sprogmodeller (LLM), står overfor to hovedudfordringer: at håndtere tilfældigheden i LLM-udgange og at mindske deres tendens til at producere forkerte oplysninger. Den uforudsigelighed af LLM'er kan være både en kreativ ressource og en hindring, især når konsekvens og faktuel nøjagtighed er afgørende. Denne tilfældighed, der er nyttig til at generere kreativt indhold, kan føre til "hallucinationer", hvor modellen med sikkerhed udgiver forkerte oplysninger, hvilket reducerer tilliden til dens pålidelighed. Mange opgaver, som f.eks. at sammenfatte information eller skabe marketingindhold, har ikke en enkelt korrekt løsning, hvilket gør LLM'ernes variabilitet til både en udfordring og en mulighed.
Et finansinstitut, for eksempel, havde behov for at sikre, at sammenfattelser af kundesamtaler var præcise, koncise og godt skrevne. De løste dette problem ved at generere flere LLM-svar og bruge Vertex Gen AI Evaluation Service til at vælge det bedste svar. Ved at generere flere versioner af en sammenfattelse med kontrolleret tilfældighed, øgede de sandsynligheden for at finde et optimalt svar. Disse svar blev derefter sammenlignet ved hjælp af pairwise-evaluation for at identificere det mest præcise og relevante svar.
Til sidst blev det top-svar evalueret ved hjælp af pointwise-evaluation for at sikre, at det opfyldte kvalitetsstandarderne, med score og forklaring for gennemsigtighed. Dette arbejdsflow, som kan tilpasses til forskellige anvendelsesområder og modaliteter, transformerer LLM-variabiliteten til en styrke ved systematisk at evaluere og vælge det bedste svar, hvilket forbedrer kvaliteten, pålideligheden og troværdigheden af LLM-genererede indhold.
cloud.google.com
Enhancing LLM quality and interpretability with the Vertex Gen AI Evaluation Service
Create attached notes ...