Un mélange de récursions permet une inférence 2 fois plus rapide - Voici comment l'implémenter

L'architecture Mixture-of-Recursions (MoR) est une nouvelle architecture d'intelligence artificielle qui promet de réduire les coûts d'inférence et l'utilisation de la mémoire des grands modèles de langage (LLM) sans sacrifier les performances.