Salesforce, et skybasert programvarefirma, arbeider mot kunstig generell intelligens (AGI) for næringslivet. De har en samling av AI-teknologier kalt Salesforce Einstein, som integreres med deres Customer Success Platform for å forbedre produktiviteten og klientengasjementet. Einstein har over 60 funksjoner, inkludert maskinlæring, naturlig språkprosessering, datavision og automatisk talegjenkjenning. Salesforce Einstein AI Platform-teamet er fokusert på å forbedre ytelsen og kapasiteten til AI-modellene, spesielt store språkmodeller (LLMs) for bruk med Einstein-produkttilbud.
Teamet møtte utfordringer med å hoste LLMs, inkludert sikker hosting av modellen, håndtering av et stort volum av inferensforespørsler og å møte gjennomstrømnings- og latenskrav. De evaluerte flere verktøy og tjenester, inkludert åpne kildealternativer og betalte løsninger, og valgte Amazon SageMaker på grunn av tilgangen til GPUs, skalerbarhet, fleksibilitet og ytelsesoptimaliseringer. SageMaker tilbød funksjoner som flere serving-motorer, avanserte batching-strategier, effektiv ruting-strategi, tilgang til high-end GPUs og rask iterasjon og utrulling.
Einstein-teamet brukte SageMaker til å optimalisere ytelsen til sine LLMs, redusere latensen og forbedre gjennomstrømningen. De observerte betydelige forbedringer i både gjennomstrømning og latency etter å ha brukt SageMaker-optimalisering. Teamet identifiserte også en mulighet til å forbedre ressurseffektiviteten ved å hoste flere LLMs på en enkelt GPU-instans. Deres feedback hjalp med å utvikle inferenskomponent-funksjonen, som nå tillater Salesforce og andre SageMaker-brukere å utnytte GPU-resursene mer effektivt.
aws.amazon.com
Boosting Salesforce Einstein’s code generating model performance with Amazon SageMaker
Create attached notes ...
