Поправка к IT-правилам Индии 2026 года предписывает оперативное удаление незаконных дипфейков и маркировку контента, сгенерированного ИИ, на платформах. Эти правила устанавливают жесткие сроки для удаления контента, особенно вредоносного. Платформы рискуют потерять защиту "безопасной гавани", если не будут соблюдать эти правила. Поправка также требует встраивания уникальных метаданных в синтетический контент. Однако существует критический пробел в проверке того, что системы ИИ *отказываются* генерировать, а не только того, что они производят. Статья исследует это регуляторное упущение, фокусируясь на проверке мер безопасности ИИ. В ней предлагается CAP-SRP, криптографическая структура для доказательства отказа ИИ от генерации вредоносного контента. Архитектура использует хэш-цепочку, цифровые подписи и внешнее закрепление. Статья предоставляет рабочую реализацию CAP-SRP на Python, подробно описывая ее различные слои и этапы реализации. Проблемы Grok подчеркивают необходимость проверяемого доказательства отказа. CAP-SRP направлена на создание защищенных от подделки аудиторских журналов для решений по модерации контента ИИ. Соответствие CAP-SRP разделено на три уровня: бронзовый, серебряный и золотой. Система делает акцент на доказательстве положительного — каждой попытки и результата — и обеспечении полноты записи путем использования SHA-256 для хэширования событий и построения цепочки.
dev.to
India's 3-Hour Deepfake Rule Exposes a Blind Spot: Building Cryptographic Proof of What AI Refused to Generate
Create attached notes ...
