OpenAI тестирует еще один новый способ раскрыть сложные процессы, происходящие внутри больших языковых моделей. Исследователи компании могут заставить LLM выдать то, что они называют "признанием", в котором модель объясняет, как она выполнила задачу, и (в большинстве случаев) признает любое ненадлежащее поведение. Выяснение...
t.me
AI и ML Дайджест в Телеграмм канале @ai_ml_news_ru
technologyreview.com
OpenAI has trained its LLM to confess to bad behavior
Create attached notes ...
