Большие языковые модели (БЯМ) стали основой для разговорного ИИ, генерации кода, суммаризации и многих других сценариев. Однако, их развертывание создает значительные трудности в средах, где ограничены вычислительные ресурсы, в основном в гибридных облачно-туманных архитектурах, где реальное время вывода может потребоваться ближе к периферии.
В таких случаях прогрессивная обрезка модели играет ключевую роль, предлагая решение для уменьшения размера модели и стоимости вычислений без ущерба для точности. В этой статье мы будем обсуждать, как эффективно развернуть БЯМ в облачно-туманных топологиях с помощью layer-aware, адаптивных к ресурсам техник обрезки.
dzone.com
Deploying LLMs Across Hybrid Cloud-Fog Topologies Using Progressive Model Pruning
Create attached notes ...
