Google Cloud и Anyscale улучшают интеграцию Ray, движка вычислений с открытым исходным кодом для ИИ, с Kubernetes, в частности с Google Kubernetes Engine. В Ray были введены селекторы меток, отражающие функциональность Kubernetes, для повышения гибкости планирования распределенных задач и акторов. Это позволяет разработчикам назначать метки узлам и указывать требования к ресурсам, такие как типы ускорителей, для выполнения задач. Объединение селекторов меток Ray и Kubernetes на GKE обеспечивает детальный контроль над развертыванием приложений и инфраструктурой.
Также улучшена поддержка продвинутых ускорителей, позволяющая использовать ИИ-ускорители следующего поколения, такие как NVIDIA GB200 NVL72, с Ray на GKE через динамическое распределение ресурсов. Кроме того, Ray получает более нативную поддержку TPU, включая API JAXTrainer для упрощенного обучения на TPU. Теперь на GKE для кластеров Ray доступны записываемые cgroups, что повышает надежность, позволяя Ray динамически выделять ресурсы для критически важных системных задач внутри контейнеров.
Эта функция повышает надежность кластеров Ray даже при интенсивных нагрузках без ущерба для безопасности. Введение изменения размера подов на месте в Kubernetes v1.33 знаменует собой начало возможностей вертикального автомасштабирования для Ray на Kubernetes. Эта функция может повысить эффективность рабочей нагрузки, позволяя рабочим процессам Ray быстрее и гибче масштабировать свои ресурсы. Ray и Kubernetes работают вместе над созданием мощной распределенной операционной системы для рабочих нагрузок ИИ/МО.
cloud.google.com
Evolving Ray and Kubernetes together for the future of distributed AI and ML
t.me
AI и ML Дайджест в Телеграмм канале @ai_ml_news_ru
Create attached notes ...
