Cascades spéculatives — Une ap... Note

Cascades spéculatives — Une approche hybride pour une inférence LLM plus intelligente et plus rapide

Les grands modèles de langage (LLM) sont puissants mais coûteux en calcul, ce qui entraîne une inférence lente et onéreuse. Pour y remédier, les cascades utilisent des modèles plus petits et plus rapides pour traiter les requêtes simples avant de recourir à des LLM plus grands et plus performants. Cette approche vise à réduire les coûts en n'engageant des modèles coûteux que pour les tâches complexes. Le décodage spéculatif, quant à lui, accélère l'inférence des LLM en faisant rédiger les futurs jetons par un modèle plus petit, que le modèle plus grand vérifie ensuite en parallèle. Cela accélère la génération sans modifier le résultat final, mais peut augmenter l'utilisation de la mémoire. L'article présente les "cascades spéculatives", une nouvelle méthode combinant les avantages des cascades et du décodage spéculatif. Les cascades spéculatives utilisent une "règle de report" flexible qui permet d'accepter le brouillon d'un modèle plus petit même s'il ne correspond pas parfaitement à la sortie du modèle plus grand. Cette approche hybride offre de meilleurs compromis coût-qualité que l'une ou l'autre des techniques prises isolément. Des expériences sur diverses tâches linguistiques ont démontré que les cascades spéculatives permettent d'obtenir des accélérations plus importantes et de meilleures mesures de qualité. La flexibilité de la règle de report permet une personnalisation basée sur la confiance, l'analyse coût-bénéfice ou des vérifications spécifiques aux jetons. Cette innovation permet aux applications LLM d'être à la fois plus rapides et plus intelligentes en optimisant l'équilibre entre le coût de calcul et la qualité de la sortie.
CdXz5zHNQW_2WaKDny7yL.png