Принуждение LLM к злу во время обучения может сделать их добрее в долгосрочной перспективе

Новое исследование от Anthropic предполагает, что такие черты, как подобострастие или злобность, связаны с определенными паттернами активности в больших языковых моделях, и включение этих паттернов во время обучения может, парадоксальным образом, предотвратить принятие моделью соответствующих черт. Большие языковые модели в последнее время приобрели репутацию плохо себя ведущих. В апреле ChatGPT внезапно…

technologyreview.com

Forcing LLMs to be evil during training can make them nicer in the long run

bsky.app

AI and ML News on Bluesky @ai-news.at.thenote.app

t.me

Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru

RSS Hunter

2025-08-01