RSS MIT Technologie Review

Das Zwangen von LLMs zu bösem Verhalten während des Trainings kann sie langfristig netter machen

Eine neue Studie von Anthropic legt nahe, dass Eigenschaften wie Schmeichelei oder Bösartigkeit mit bestimmten Mustern der Aktivität in großen Sprachmodellen assoziiert sind - und das Aktivieren dieser Muster während des Trainings kann paradoxerweise verhindern, dass das Modell die entsprechenden Eigenschaften annimmt. Große Sprachmodelle haben kürzlich den Ruf erworben, sich schlecht zu benehmen. Im April trat ChatGPT plötzlich...
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
favicon
technologyreview.com
Forcing LLMs to be evil during training can make them nicer in the long run
Create attached notes ...