RSS HackerNoon

Что на самом деле определяет скорость вашего кода PyTorch?

Ядра PyTorch для GPU запускаются асинхронно, поэтому наивные замеры времени в Python измеряют планирование ЦП, а не работу ГП. Это руководство показывает, как правильно проводить бенчмаркинг с использованием событий CUDA, синхронизации, прогрева и (опционально) очистки кэша L2, а также do_bench и графов CUDA от Triton для снижения накладных расходов ЦП. Также утверждается, что реалистичные бенчмарки должны отражать шаблоны производственных данных, что иллюстрируется дисбалансом маршрутизации токенов в групповых GEMM MoE.
favicon
hackernoon.com
What Really Determines the Speed of Your PyTorch Code?
Изображение к статье: Что на самом деле определяет скорость вашего кода PyTorch?