RSS MIT Technology Review

OpenAI обучила свою большую языковую модель признаваться в плохом поведении.

OpenAI тестирует еще один новый способ раскрыть сложные процессы, происходящие внутри больших языковых моделей. Исследователи компании могут заставить LLM выдать то, что они называют "признанием", в котором модель объясняет, как она выполнила задачу, и (в большинстве случаев) признает любое ненадлежащее поведение. Выяснение...
favicon
t.me
AI и ML Дайджест в Телеграмм канале @ai_ml_news_ru
favicon
technologyreview.com
OpenAI has trained its LLM to confess to bad behavior