Forcer les modèles de langage à être méchants pendant l'entraînement peut les rendre plus gentils à long terme

Une nouvelle étude d'Anthropic suggère que des traits tels que la flagornerie ou la méchanceté sont associés à des modèles spécifiques d'activité dans les grands modèles de langage - et activer ces modèles pendant la formation peut, paradoxalement, empêcher le modèle d'adopter les traits liés. Les grands modèles de langage ont récemment acquis une réputation pour se comporter mal. En avril, ChatGPT a soudainement...

bsky.app

AI and ML News on Bluesky @ai-news.at.thenote.app

technologyreview.com

Forcing LLMs to be evil during training can make them nicer in the long run

RSS Hunter

2025-08-01

Create attached notes ...