Flux RSS du MIT Technology Review

Forcer les modèles de langage à être méchants pendant l'entraînement peut les rendre plus gentils à long terme

Une nouvelle étude d'Anthropic suggère que des traits tels que la flagornerie ou la méchanceté sont associés à des modèles spécifiques d'activité dans les grands modèles de langage - et activer ces modèles pendant la formation peut, paradoxalement, empêcher le modèle d'adopter les traits liés. Les grands modèles de langage ont récemment acquis une réputation pour se comporter mal. En avril, ChatGPT a soudainement...
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
favicon
technologyreview.com
Forcing LLMs to be evil during training can make them nicer in the long run