RSS VentureBeat

От статических классификаторов к механизмам рассуждения: новая модель OpenAI переосмысливает модерацию контента

Предприятия тонко настраивают LLM для безопасности, но OpenAI представляет более гибкий подход со своими моделями с открытыми весами, gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Эти модели, доступные по лицензии Apache 2.0, интерпретируют политики разработчиков во время вывода, используя рассуждения по цепочке мыслей, предоставляя объяснения для решений. Это позволяет итеративно пересматривать политики, предлагая большую гибкость по сравнению с обучением классификаторов. OpenAI подчеркивает, что эти модели позволяют адаптироваться к развивающемуся вреду, работать в нюансированных областях и работать с ограниченными обучающими выборками. Модели принимают как политику, так и контент в качестве входных данных, определяя потенциальные нарушения руководящих принципов. Основываясь на внутреннем Safety Reasoner OpenAI, модели gpt-oss-safeguard превзошли предыдущие модели в эталонных тестах. Однако возникают опасения по поводу централизации стандартов безопасности и потенциального институционализации точки зрения OpenAI. Несмотря на то, что базовая модель не выпущена, OpenAI надеется, что сообщество разработчиков доработает gpt-oss-safeguard, проводя хакатон для поощрения дальнейшей разработки.
favicon
venturebeat.com
From static classifiers to reasoning engines: OpenAI’s new model rethinks content moderation
Изображение к статье: От статических классификаторов к механизмам рассуждения: новая модель OpenAI переосмысливает модерацию контента
Create attached notes ...