Фильтр ИИ от Anthropic против ядерного оружия вызывает споры о реальных рисках

Чат-бот Claude от Anthropic был разработан с мерами предосторожности, чтобы не помогать в создании ядерного оружия. Министерство энергетики и Национальное управление ядерной безопасности сотрудничали с Anthropic для тестирования и совершенствования этих мер безопасности. Claude подвергся строгим испытаниям с использованием сложного фильтра, предназначенного для выявления и блокирования опасных разговоров. Этот "ядерный классификатор" использует список индикаторов риска NNSA для обозначения вызывающих беспокойство тем, не препятствуя при этом законным обсуждениям. Официальные лица признают значительное влияние ИИ на национальную безопасность и роль агентства в разработке защитных инструментов. Однако эксперты придерживаются разных мнений относительно непосредственной угрозы, которую представляет ИИ в этой области. Некоторые считают, что нынешние модели не вызывают серьезного беспокойства, но будущие итерации могут, призывая к большей прозрачности со стороны таких компаний, как Anthropic. Другие настроены скептически, ставя под сомнение обоснованность тестов, проведенных на моделях, изначально не обученных на конфиденциальных ядерных данных. Они предполагают, что проект опирается на непроверенные предположения о возникающих возможностях ИИ. Anthropic утверждает, что ее основное внимание уделяется упреждающему созданию систем безопасности для смягчения будущих рисков, рассматривая классификатор как пример этой приверженности. Также возникают опасения по поводу предоставления нерегулируемым частным фирмам доступа к конфиденциальным государственным данным для таких проектов. Anthropic заявляет, что ее намерение состоит в том, чтобы предотвратить распространение ядерного оружия, стремясь к тому, чтобы эти методы обеспечения безопасности стали отраслевым стандартом.

zerohedge.com

Anthropic's Anti-Nuke AI Filter Sparks Debate Over Real Risks

Изображение к статье: Фильтр ИИ от Anthropic против ядерного оружия вызывает споры о реальных рисках

RSS Hunter

2025-10-23