DeepMind fait un grand bond en avant vers l'interprétation des LLM avec des auto-encodeurs parcimonieux
Une nouvelle recherche de Google DeepMind montre comment les auto-encodeurs creux (SAEs) avec l'activation JumpReLU peuvent aider à interpréter les modèles de langage massifs (LLMs).