Rendre les LLM plus précis en ... Note

Rendre les LLM plus précis en utilisant toutes leurs couches.

Les grands modèles linguistiques ont souvent du mal avec la factualité, hallucinant parfois des informations incorrectes. Ce problème découle de divers facteurs, notamment des données d'entraînement biaisées ou incomplètes. La factualité, la capacité à générer un contenu véridique, est cruciale pour des applications de LLM fiables. SLED, une nouvelle méthode de décodage, vise à améliorer la factualité sans bases de connaissances externes. SLED exploite les informations de toutes les couches du LLM, et pas seulement de la couche finale, pour affiner ses prédictions. Il calcule les probabilités des jetons en utilisant les couches précédentes, en attribuant des poids à chacune pour une sortie plus précise. Des expériences sur de multiples tâches et benchmarks montrent que SLED améliore la précision factuelle sur différents LLMs. Par exemple, il peut corriger des erreurs mathématiques ou choisir la bonne réponse à une question à choix multiples. SLED est facile à mettre en œuvre, compatible avec divers LLMs et peut être combiné avec d'autres méthodes. Son principal compromis est une augmentation minime du temps d'inférence par rapport aux alternatives. SLED démontre des améliorations de précision de pointe sans nécessiter de réglage fin important. Les travaux futurs pourraient impliquer la combinaison de SLED avec un réglage fin supervisé et son application à d'autres tâches.
CdXz5zHNQW_pbrRdL3gvF.png