L'estimateur adaptatif ATLAS d... Note

L'estimateur adaptatif ATLAS de Together AI offre une accélération de l'inférence de 400 % en apprenant des charges de travail en temps réel.

Les entreprises déployant l'IA rencontrent des limitations de performance dues à des spéculateurs statiques qui ne peuvent pas s'adapter à l'évolution des charges de travail. Ces spéculateurs fonctionnent avec de grands modèles linguistiques pour rédiger plusieurs jetons à l'avance, améliorant considérablement la vitesse d'inférence et réduisant les coûts. Ensemble, l'IA a introduit ATLAS, un nouveau système doté d'un apprentissage adaptatif pour l'optimisation de l'inférence, promettant des performances jusqu'à 400 % plus rapides. Les spéculateurs statiques, entraînés sur des ensembles de données fixes, perdent en précision à mesure que les modèles d'utilisation de l'IA changent, entraînant une dégradation des vitesses d'inférence. ATLAS emploie une architecture à double spéculateur avec un modèle statique stable et un modèle adaptatif léger qui apprend du trafic en direct. Un contrôleur conscient de la confiance sélectionne dynamiquement le spéculateur approprié, permettant un ajustement dynamique de l'anticipation de la spéculation. Cette approche adaptative offre des performances comparables à celles de matériel spécialisé comme les puces personnalisées, atteignant des taux de génération de jetons élevés. Les gains de performance proviennent d'une meilleure utilisation de la capacité de calcul en échangeant le traitement inactif contre une réduction de l'accès à la mémoire. ATLAS fonctionne comme une couche de mise en cache intelligente, apprenant des modèles plutôt que de stocker des réponses exactes. Les cas d'utilisation incluent l'entraînement à l'apprentissage par renforcement et l'adaptation aux applications d'IA d'entreprise en évolution. ATLAS est désormais disponible sur la plateforme de Together AI sans coût supplémentaire, indiquant un changement plus large de l'industrie vers des systèmes d'inférence en apprentissage continu.
CdXz5zHNQW_iLEz2YDwJK.jpeg