Amazon SageMaker-inferens lancerer hurtigere auto-scaling for generative AI-modeller

1. Amazon SageMaker har introduceret en ny funktion, der kan hjælpe med at reducere den tid, det tager for generative AI-modeller at skala automatisk. 2. Den nye funktion bruger under-minut-målinger til at reducere den samlede skaleringstid for generative AI-modeller. 3. Dette kan forbedre responsiviteten af generative AI-applikationer, når der er variationer i efterspørgslen. 4. SageMaker tilbyder brancheførende funktioner til at imødegå inference-udfordringer, herunder endepunkter for generative AI-inference, som reducerer implementeringsomkostningerne og latentiden. 5. SageMaker-inference-optimeringstoolkit kan levere op til dobbelt så høj gennemstrømning, samtidig med at omkostningerne reduceres med omkring 50% for generative AI-ydelse. 6. SageMaker-inference tilbyder også streaming-støtte for LLM'er, hvilket muliggør streaming af tokens i realtid i stedet for at vente på hele svaret. 7. SageMaker-inference giver mulighed for at implementere en enkelt model eller flere modeller ved hjælp af SageMaker-inference-komponenter på samme endepunkt. 8. Hurtigere auto-scaling-målinger er blevet introduceret, herunder ConcurrentRequestsPerModel og ConcurrentRequestsPerCopy, som giver en mere direkte og præcis repræsentation af belastningen på systemet. 9. Disse målinger muliggør en betydeligt hurtigere auto-scaling, hvilket reducerer detektionstiden og forbedrer den samlede scale-out-tid for generative AI-modeller. 10. Ved at bruge disse nye målinger kan man skala LLM-udføringer mere effektivt, hvilket giver optimal ydeevne og omkostningseffektivitet, når efterspørgslen varierer.

aws.amazon.com

Amazon SageMaker inference launches faster auto scaling for generative AI models

RSS Hunter

2024-07-29

Create attached notes ...