1. Amazon Sagemaker on esittänyt uuden kyvyn, joka voi auttaa vähentämään aikaa, jonka generatiivisten tekoälymallien automaattinen skaalaus kestää.
2. Uusi ominaisuus käyttää alle minuutin mittauksia vähentämään merkittävästi skaalausviipymää generatiivisille tekoälymalleille.
3. Tämä parannus voi parantaa generatiivisten tekoälysovellusten reagointikykyä, kun kysyntä vaihtelee.
4. Sagemaker tarjoaa alan johtavat kyvyt vastatakseni inferenssia koskeviin haasteisiin, mukaan lukien generatiivisten tekoälymallien päätepisteet, jotka vähentävät käyttöönotto- ja viipymättä kustannuksia.
5. Sagemaker-inferenssioptimointityökalu voi tarjota jopa kaksinkertaisen läpäisyajan ja vähentää kustannuksia noin 50% generatiivisten tekoälysuorituskyvyn osalta.
6. Sagemaker-inferenssi tarjoaa myös streaming-tuen LLM:ille, mikä mahdollistaa streaming-tokenien toimittamisen reaaliajassa, eikä ole odotettava koko vastauksen saamista.
7. Sagemaker-inferenssi tarjoaa kyvyn käyttää yhtä mallia tai useita malleja käyttämällä Sagemaker-inferenssiosäädintäosia samalla päätepisteellä.
8. Nopeampia auto-scaling-mittauksia on esitelty, mukaan lukien ConcurrentRequestsPerModel ja ConcurrentRequestsPerCopy, jotka tarjoavat suoremman ja tarkemman kuvan järjestelmän kuormituksesta.
9. Nämä mittaukset mahdollistavat huomattavasti nopeamman auto-scalingin, vähentävät havaitsemisaikaa ja parantavat generatiivisten tekoälymallien skaalausajat.
10. Näiden uusien mittauksien käyttäminen voi auttaa skaalaamaan LLM-käyttöönottoja tehokkaammin, tarjoten optimaalisen suorituskyvyn ja kustannustehokkuuden, kun kysyntä vaihtelee.
aws.amazon.com
Amazon SageMaker inference launches faster auto scaling for generative AI models
Create attached notes ...
