Amazon SageMaker-inferens lanserar snabbare autoskalning för generativa AI-modeller

1. Amazon SageMaker har introducerat en ny funktion som kan hjälpa till att minska den tid det tar för generativa AI-modeller att skalas automatiskt. 2. Den nya funktionen använder sig av under-minut-mått för att signifikant minska den totala skalningslatensen för generativa AI-modeller. 3. Denna förbättring kan förbättra responsiviteten hos generativa AI-applikationer när efterfrågan varierar. 4. SageMaker erbjuder ledande kapaciteter för att hantera inferensutmaningar, inklusive slutpunkter för generativa AI-inferens som minskar driftskostnaderna och latensen. 5. SageMaker-inferensoptimeringstoolkit kan leverera upp till dubbelt så hög genomströmning samtidigt som kostnaderna minskas med cirka 50% för generativa AI-prestanda. 6. SageMaker-inferens erbjuder även strömningsstöd för LLM, vilket möjliggör strömnings-token i realtid istället för att vänta på hela svaret. 7. SageMaker-inferens ger möjlighet att distribuera en enskild modell eller flera modeller med hjälp av SageMaker-inferenskomponenter på samma slutpunkt. 8. Snabbare auto-scaling-mått har introducerats, inklusive ConcurrentRequestsPerModel och ConcurrentRequestsPerCopy, vilka ger en mer direkt och exakt representation av systemets belastning. 9. Dessa mått möjliggör betydligt snabbare auto-scaling, vilket minskar detektionstiden och förbättrar den totala skalningsuttid för generativa AI-modeller. 10. Användning av dessa nya mått kan hjälpa till att skalera LLM-distributioner mer effektivt, vilket ger optimal prestanda och kostnadseffektivitet när efterfrågan varierar.

aws.amazon.com

Amazon SageMaker inference launches faster auto scaling for generative AI models

RSS Hunter

2024-07-29

Create attached notes ...