Eine neue Studie von Anthropic legt nahe, dass Eigenschaften wie Schmeichelei oder Bösartigkeit mit bestimmten Mustern der Aktivität in großen Sprachmodellen assoziiert sind - und das Aktivieren dieser Muster während des Trainings kann paradoxerweise verhindern, dass das Modell die entsprechenden Eigenschaften annimmt. Große Sprachmodelle haben kürzlich den Ruf erworben, sich schlecht zu benehmen. Im April trat ChatGPT plötzlich...
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
technologyreview.com
Forcing LLMs to be evil during training can make them nicer in the long run
Create attached notes ...
