A Salesforce, uma empresa de software baseada em nuvem, está trabalhando em direção à inteligência artificial geral (IAG) para negócios. Eles têm um conjunto de tecnologias de IA chamadas Salesforce Einstein, que se integra com a Plataforma de Sucesso do Cliente para melhorar a produtividade e o engajamento do cliente. O Einstein tem mais de 60 recursos, incluindo aprendizado de máquina, processamento de linguagem natural, visão computacional e reconhecimento automático de fala. A equipe de plataforma de IA Salesforce Einstein está focada em melhorar o desempenho e as capacidades dos modelos de IA, particularmente grandes modelos de linguagem (LLMs) para uso com ofertas de produtos Einstein.
A equipe enfrentou desafios ao hospedar LLMs, incluindo hospedar seu modelo de forma segura, lidar com um grande volume de solicitações de inferência e atender aos requisitos de throughput e latency. Eles avaliaram várias ferramentas e serviços, incluindo opções de código aberto e soluções pagas, e escolheram o Amazon SageMaker devido ao acesso a GPUs, escalabilidade, flexibilidade e otimizações de desempenho. O SageMaker ofereceu recursos como múltiplos motores de serviço, estratégias de batching avançadas, estratégia de roteamento eficiente, acesso a GPUs de alto desempenho e iteração e implantação rápidas.
A equipe do Einstein usou o SageMaker para otimizar o desempenho de seus LLMs, reduzindo a latency e melhorando o throughput. Eles observaram melhorias significativas tanto no throughput quanto na latency após usar a otimização do SageMaker. A equipe também identificou uma oportunidade para melhorar a eficiência dos recursos ao hospedar múltiplos LLMs em uma instância de GPU única. Seu feedback ajudou a desenvolver o recurso de componente de inferência, que agora permite que a Salesforce e outros usuários do SageMaker utilizem recursos de GPU de forma mais eficaz.
aws.amazon.com
Boosting Salesforce Einstein’s code generating model performance with Amazon SageMaker
Create attached notes ...
