1. Amazon SageMaker har introdusert en ny funksjon som kan hjelpe med å redusere tiden det tar for generative AI-modeller å skalerer automatisk.
2. Den nye funksjonen bruker sub-minute-målinger til å redusere skaleringslatensen for generative AI-modeller betydelig.
3. Dette forbedret kan forbedre responsiviteten til generative AI-applikasjoner når etterspørselen varierer.
4. SageMaker tilbyr ledende kapasiteter for å håndtere inferens-utfordringer, inkludert endepunkter for generative AI-inferens som reduserer driftskostnadene og latensen.
5. SageMaker-inferens-optimaliseringstverktøyet kan levere opptil dobbelt så høy throughput samtidig som det reduserer kostnadene med omtrent 50% for generative AI-ytelse.
6. SageMaker-inferens tilbyr også strømme-støtte for LLM, som muliggjør strømme-token i sanntid i stedet for å vente på hele svaret.
7. SageMaker-inferens gir muligheten til å distribuere en enkelt modell eller flere modeller ved hjelp av SageMaker-inferenskomponenter på samme endepunkt.
8. Raskere auto-scaling-målinger er blitt introdusert, inkludert ConcurrentRequestsPerModel og ConcurrentRequestsPerCopy, som gir en mer direkte og nøyaktig representasjon av belastningen på systemet.
9. Disse målingene tillater en mye raskere auto-scaling, som reduserer detekterings-tiden og forbedrer den totale skalerings-tiden for generative AI-modeller.
10. Bruken av disse nye målingene kan hjelpe med å skalerer LLM-distribusjoner mer effektivt, og tilbyr optimal ytelse og kostnadseffektivitet når etterspørselen varierer.
aws.amazon.com
Amazon SageMaker inference launches faster auto scaling for generative AI models
Create attached notes ...
