O Amazon SageMaker inference lança escalonamento automático mais rápido para modelos de IA geradores

Seguir

O Amazon SageMaker inference lança escalonamento automático mais rápido para modelos de IA geradores

1. O Amazon SageMaker introduziu uma nova capacidade que pode ajudar a reduzir o tempo que leva para os modelos de IA gerativos escalarem automaticamente. 2. A nova característica usa métricas subminuto para reduzir significativamente a latência de escalonamento para modelos de IA gerativos. 3. Esta melhoria pode melhorar a responsividade de aplicativos de IA gerativos à medida que a demanda flutua. 4. O SageMaker oferece capacidades líderes de mercado para abordar desafios de inferência, incluindo endpoints para inferência de IA gerativos que reduzem os custos de implantação e latência. 5. O kit de ferramentas de otimização de inferência do SageMaker pode entregar até duas vezes mais throughput enquanto reduz os custos em cerca de 50% para o desempenho de IA gerativos. 6. A inferência do SageMaker também oferece suporte a streaming para LLMs, permitindo que os tokens sejam transmitidos em tempo real em vez de esperar pela resposta completa. 7. A inferência do SageMaker fornece a capacidade de implantar um único modelo ou vários modelos usando componentes de inferência do SageMaker no mesmo endpoint. 8. Foram introduzidas métricas de escalonamento automático mais rápidas, incluindo ConcurrentRequestsPerModel e ConcurrentRequestsPerCopy, que fornecem uma representação mais direta e precisa da carga no sistema. 9. Essas métricas permitem escalonamento automático significativamente mais rápido, reduzindo o tempo de detecção e melhorando o tempo geral de escalonamento dos modelos de IA gerativos. 10. Usar essas novas métricas pode ajudar a escalonar implantações de LLM de forma mais eficaz, fornecendo desempenho e eficiência de custos ótimos à medida que a demanda flutua.

Amazon SageMaker inference launches faster auto scaling for generative AI models aws.amazon.com

RSS Hunter • 28 de jul. de 2024