Desenvolvedores que utilizam grandes modelos de linguagem (LLMs) enfrentam dois principais desafios: gerenciar a aleatoriedade das saídas dos LLMs e mitigar sua tendência a produzir informações incorretas. A imprevisibilidade dos LLMs pode ser tanto um ativo criativo quanto um obstáculo, especialmente quando a consistência e a precisão factual são essenciais. Essa aleatoriedade, embora útil para gerar conteúdo criativo, pode levar a "alucinações" em que o modelo produz confiantemente informações erradas, reduzindo assim a confiança na sua confiabilidade. Muitas tarefas, como resumir informações ou criar conteúdo de marketing, não têm uma resposta certa, tornando a variabilidade dos LLMs tanto um desafio quanto uma oportunidade.
Por exemplo, uma instituição financeira precisava garantir que os resumos das conversas com os clientes fossem precisos, concisos e bem escritos. Eles abordaram isso gerando várias respostas de LLM e usando o serviço de avaliação Vertex Gen AI para selecionar a melhor. Ao gerar várias versões de um resumo com aleatoriedade controlada, eles aumentaram a probabilidade de encontrar uma resposta ótima. Essas respostas foram então comparadas usando avaliação em pares para identificar a mais precisa e relevante.
Por fim, a resposta mais alta foi avaliada usando avaliação pontual para garantir que atendesse aos padrões de qualidade, com pontuações e explicações fornecidas para transparência. Esse fluxo de trabalho, que pode ser adaptado para diferentes casos de uso e modalidades, transforma a variabilidade dos LLMs em uma força ao avaliar e selecionar sistematicamente a melhor saída, melhorando assim a qualidade, confiabilidade e confiança no conteúdo gerado por LLMs.
cloud.google.com
Enhancing LLM quality and interpretability with the Vertex Gen AI Evaluation Service
Create attached notes ...