OpenAI обучила свою большую языковую модель признаваться в плохом поведении.

OpenAI тестирует еще один новый способ раскрыть сложные процессы, происходящие внутри больших языковых моделей. Исследователи компании могут заставить LLM выдать то, что они называют "признанием", в котором модель объясняет, как она выполнила задачу, и (в большинстве случаев) признает любое ненадлежащее поведение. Выяснение...