От статических классификаторов к механизмам рассуждения: новая модель OpenAI переосмысливает модерацию контента

Предприятия тонко настраивают LLM для безопасности, но OpenAI представляет более гибкий подход со своими моделями с открытыми весами, gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Эти модели, доступные по лицензии Apache 2.0, интерпретируют политики разработчиков во время вывода, используя рассуждения по цепочке мыслей, предоставляя объяснения для решений. Это позволяет итеративно пересматривать политики, предлагая большую гибкость по сравнению с обучением классификаторов. OpenAI подчеркивает, что эти модели позволяют адаптироваться к развивающемуся вреду, работать в нюансированных областях и работать с ограниченными обучающими выборками. Модели принимают как политику, так и контент в качестве входных данных, определяя потенциальные нарушения руководящих принципов. Основываясь на внутреннем Safety Reasoner OpenAI, модели gpt-oss-safeguard превзошли предыдущие модели в эталонных тестах. Однако возникают опасения по поводу централизации стандартов безопасности и потенциального институционализации точки зрения OpenAI. Несмотря на то, что базовая модель не выпущена, OpenAI надеется, что сообщество разработчиков доработает gpt-oss-safeguard, проводя хакатон для поощрения дальнейшей разработки.

venturebeat.com

From static classifiers to reasoning engines: OpenAI’s new model rethinks content moderation

Изображение к статье: От статических классификаторов к механизмам рассуждения: новая модель OpenAI переосмысливает модерацию контента

RSS Hunter

2025-10-29

Create attached notes ...