Meddelande om PyTorch/XLA 2.4: En bättre Pallas och utvecklarexperience, plus "eager mode
PyTorch/XLA 2.4 erbjuder betydande förbättringar för djupinlärning på TPU och GPU. Denna version introducerar förbättringar i Pallas, ett anpassat kärnspråk, som nu stöder både TPU och GPU, vilket förbättrar prestanda med Python-kod. Nya API-anrop, som torch_xla.sync(), förenklar integrationen i befintliga PyTorch-arbetsflöden. En experimentell eager-läge tillåter omedelbar körning av operationer på målmaskinvara, även om TPU kräver ett "mark_step"-anrop för emulering. Förbättringar i Pallas inkluderar stöd för Flash Attention och Paged Attention, samt inbyggda Megablocks-block-sparse-kärnor för grupp-matris-multiplication. Dessutom finns en ny TPU-kommandoradssgränssnitt, tpu-info, som underlättar felsökning genom att visa användning och enhetsinformation, liknande Nvidia's nvidia-smi-verktyg. Trots dessa ändringar förblir befintlig kod kompatibel, vilket gör uppgraderingen smidig för utvecklare. Dessa uppdateringar syftar kollektivt till att förbättra användbarheten och prestandan i PyTorch/XLA.