1. Amazon SageMaker, oluşturucu AI modellerinin otomatik olarak ölçeklenmesini hızlandıracak yeni bir özellik sundu.
2. Bu yeni özellik, oluşturucu AI modelleri için toplam ölçekleme gecikmesini önemli ölçüde azaltmak için alt-dakika metriklerini kullanarak çalışmaktadır.
3. Bu iyileştirme, talebin değişkenlik gösterdiği durumlarda oluşturucu AI uygulamalarının tepki süresini iyileştirebilir.
4. SageMaker, oluşturucu AI için inferansın zorluklarına çözüm getiren sektörde lider olan özelliklerle donatılmıştır, bu özellikler arasında oluşturucu AI için inferansın maliyetini ve gecikmesini azaltan uç noktalar da bulunmaktadır.
5. SageMaker Inferans Optimizasyon Kit'i, oluşturucu AI performansı için yüzde 50'ye varan maliyet azaltmalarıyla birlikte yüzde 100'e kadar daha yüksek verimliliği sağlayabilir.
6. SageMaker Inferans, LLM'ler için akış desteğini de sunmaktadır, bu sayede tüm yanıtı beklemek yerine gerçek zamanlı olarak akış belirteçlerini desteklemaktadır.
7. SageMaker Inferans, tek bir model veya birden fazla modeli SageMaker Inferans bileşenleri kullanarak aynı uç noktada dağıtabilmenize olanak sağlar.
8. Daha hızlı otomatik ölçekleme metrikleri sunulmuştur, bu metrikler arasında ConcurrentRequestsPerModel ve ConcurrentRequestsPerCopy gibi, sisteme olan yükün daha doğrudan ve doğru bir temsilini sunan metrikler bulunmaktadır.
9. Bu yeni metrikler, oluşturucu AI modellerinin daha hızlı otomatik ölçeklenmesini sağlar, bu da algılama süresini azaltır ve LLM dağıtımlarının toplam ölçeklenme zamanını iyileştirir.
10. Bu yeni metriklerin kullanımı, talebin değişkenlik gösterdiği durumlarda LLM dağıtımlarının daha etkili bir şekilde ölçeklenmesini sağlar, bu da optimal performans ve maliyet etkinliği sağlar.
aws.amazon.com
Amazon SageMaker inference launches faster auto scaling for generative AI models
Create attached notes ...
