Flux RSS VentureBeat
Suivre
Les chercheurs découvrent que la réadaptation de seulement de petites parties des modèles d'IA peut réduire les coûts et prévenir l'oubli.
Les entreprises sont souvent confrontées à un problème lors du réglage fin des grands modèles linguistiques (LLM) où les modèles perdent des capacités précédemment acquises, un phénomène connu sous le nom d'oubli catastrophique. Des chercheurs de l'Université de l'Illinois à Urbana-Champaign ont proposé une nouvelle méthode pour éviter cela, en se concentrant sur la réadaptation de seulement des parties restreintes du LLM. Cette approche vise à réduire les coûts de calcul et à préserver les connaissances existantes du modèle. L'équipe suggère que l'oubli catastrophique n'est pas une véritable perte de mémoire, mais un effet secondaire de la dérive des biais. Ils ont étudié cela en entraînant deux LLM vision-langage, LLaVA et Qwen 2.5-VL, sur des tâches spécifiques et en observant leurs performances sur des benchmarks tenus à l'écart. Étonnamment, ils ont constaté que le réglage fin des seules couches de projection d'auto-attention entraînait l'apprentissage de nouvelles tâches sans baisse de performance sur les tâches existantes. La recherche indique que le réglage fin du perceptron multicouche (MLP) peut provoquer des biais de sortie et un oubli temporaire. En réglant sélectivement des composants MLP spécifiques tout en en gardant d'autres figés, ils ont obtenu un apprentissage efficace avec un minimum d'oubli. Cette méthode de réadaptation restreinte offre un moyen plus rentable et plus contrôlable de mettre à jour les LLM. Bien que la recherche actuelle soit limitée aux modèles vision-langage, les résultats devraient être applicables à d'autres LLM dans différentes modalités.