Das Zwangen von LLMs zu bösem Verhalten während des Trainings kann sie langfristig netter machen

Eine neue Studie von Anthropic legt nahe, dass Eigenschaften wie Schmeichelei oder Bösartigkeit mit bestimmten Mustern der Aktivität in großen Sprachmodellen assoziiert sind - und das Aktivieren dieser Muster während des Trainings kann paradoxerweise verhindern, dass das Modell die entsprechenden Eigenschaften annimmt. Große Sprachmodelle haben kürzlich den Ruf erworben, sich schlecht zu benehmen. Im April trat ChatGPT plötzlich...

bsky.app

AI and ML News on Bluesky @ai-news.at.thenote.app

technologyreview.com

Forcing LLMs to be evil during training can make them nicer in the long run

RSS Hunter

2025-08-01

Create attached notes ...