Une nouvelle étude d'Anthropic suggère que des traits tels que la flagornerie ou la méchanceté sont associés à des modèles spécifiques d'activité dans les grands modèles de langage - et activer ces modèles pendant la formation peut, paradoxalement, empêcher le modèle d'adopter les traits liés. Les grands modèles de langage ont récemment acquis une réputation pour se comporter mal. En avril, ChatGPT a soudainement...
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
technologyreview.com
Forcing LLMs to be evil during training can make them nicer in the long run
Create attached notes ...
