Новое исследование от Anthropic предполагает, что такие черты, как подобострастие или злобность, связаны с определенными паттернами активности в больших языковых моделях, и включение этих паттернов во время обучения может, парадоксальным образом, предотвратить принятие моделью соответствующих черт. Большие языковые модели в последнее время приобрели репутацию плохо себя ведущих. В апреле ChatGPT внезапно…
technologyreview.com
Forcing LLMs to be evil during training can make them nicer in the long run
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
t.me
Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru
