Amazon SageMaker-inferens lanserer raskere auto-scaling for generative AI-modeller

1. Amazon SageMaker har introdusert en ny funksjon som kan hjelpe med å redusere tiden det tar for generative AI-modeller å skalerer automatisk. 2. Den nye funksjonen bruker sub-minute-målinger til å redusere skaleringslatensen for generative AI-modeller betydelig. 3. Dette forbedret kan forbedre responsiviteten til generative AI-applikasjoner når etterspørselen varierer. 4. SageMaker tilbyr ledende kapasiteter for å håndtere inferens-utfordringer, inkludert endepunkter for generative AI-inferens som reduserer driftskostnadene og latensen. 5. SageMaker-inferens-optimaliseringstverktøyet kan levere opptil dobbelt så høy throughput samtidig som det reduserer kostnadene med omtrent 50% for generative AI-ytelse. 6. SageMaker-inferens tilbyr også strømme-støtte for LLM, som muliggjør strømme-token i sanntid i stedet for å vente på hele svaret. 7. SageMaker-inferens gir muligheten til å distribuere en enkelt modell eller flere modeller ved hjelp av SageMaker-inferenskomponenter på samme endepunkt. 8. Raskere auto-scaling-målinger er blitt introdusert, inkludert ConcurrentRequestsPerModel og ConcurrentRequestsPerCopy, som gir en mer direkte og nøyaktig representasjon av belastningen på systemet. 9. Disse målingene tillater en mye raskere auto-scaling, som reduserer detekterings-tiden og forbedrer den totale skalerings-tiden for generative AI-modeller. 10. Bruken av disse nye målingene kan hjelpe med å skalerer LLM-distribusjoner mer effektivt, og tilbyr optimal ytelse og kostnadseffektivitet når etterspørselen varierer.

aws.amazon.com

Amazon SageMaker inference launches faster auto scaling for generative AI models

RSS Hunter

2024-07-29

Create attached notes ...