Les chercheurs de Nvidia améli... Note

Les chercheurs de Nvidia améliorent les capacités de raisonnement des LLM en les faisant « réfléchir » pendant la pré-formation.

Des chercheurs chez Nvidia ont développé une nouvelle technique appelée pré-entraînement par apprentissage par renforcement, qui intègre l'apprentissage par renforcement dans la phase d'entraînement initiale des grands modèles linguistiques. Cette approche encourage le modèle à réfléchir de manière indépendante avant de prédire la suite, lui apprenant à raisonner sur du texte brut sans avoir besoin de vérificateurs externes. Le cycle d'entraînement typique des grands modèles linguistiques implique un pré-entraînement sur de vastes quantités de texte en utilisant un objectif de prédiction du prochain jeton, suivi d'une phase de post-entraînement où ils acquièrent des capacités de raisonnement complexes. Cependant, ce processus séquentiel ne correspond pas à la compréhension humaine, qui est une intégration parallèle de l'entrée avec les connaissances antérieures. La nouvelle technique, RLP, recadre le processus de pré-entraînement en traitant la génération de chaînes de pensée comme une action que le modèle entreprend avant de prédire le prochain jeton. Le modèle reçoit une récompense en fonction de la mesure dans laquelle sa pensée a amélioré la précision de sa prédiction, éliminant ainsi le besoin de vérificateurs externes ou de données étiquetées par des humains. Le RLP a montré des améliorations significatives dans l'apprentissage de tâches de raisonnement complexes, les modèles entraînés avec cette technique surpassant systématiquement leurs homologues entraînés conventionnellement. Les avantages du RLP se cumulent au lieu de disparaître lors des étapes ultérieures de réglage fin, et la technique démontre une évolutivité et une polyvalence impressionnantes. Les chercheurs pensent que le RLP ouvre la voie à un avenir où le pré-entraînement ne sera plus un processus monolithique de prédiction du prochain jeton, mais plutôt un hybride d'objectifs qui crée une IA apprenant à penser de manière plus robuste dès le premier jour. Dans l'ensemble, le RLP a le potentiel de révolutionner la façon dont les grands modèles linguistiques sont entraînés, leur permettant de développer une pensée plus profonde et plus structurée beaucoup plus tôt dans l'entraînement.
CdXz5zHNQW_Vkfqey1VGn.webp