2026년 인도 IT 규칙 개정안은 불법 딥페이크의 신속한 삭제와 플랫폼 상의 AI 생성 콘텐츠에 대한 라벨링을 의무화합니다. 이 규칙은 특히 유해 콘텐츠에 대해 콘텐츠 삭제에 엄격한 기한을 적용합니다. 플랫폼은 이러한 규정을 준수하지 않을 경우 안전 항구 보호를 잃을 위험이 있습니다. 또한, 개정안은 합성 콘텐츠에 고유한 메타데이터를 포함하도록 요구합니다. 그러나 AI 시스템이 생성하는 것뿐만 아니라 *거부하는* 것을 검증하는 데 중요한 격차가 존재합니다. 이 기사는 AI 안전 조치의 검증에 초점을 맞춰 이러한 규제 사각지대를 탐구합니다. 이 기사는 유해 콘텐츠 생성을 거부하는 AI를 증명하기 위한 암호화 프레임워크인 CAP-SRP를 제안합니다. 이 아키텍처는 해시 체인, 디지털 서명 및 외부 앵커링을 사용합니다. 이 기사는 CAP-SRP의 작동하는 Python 구현을 제공하며, 다양한 레이어와 구현 단계를 자세히 설명합니다. Grok의 문제는 검증 가능한 거부 증명의 필요성을 강조합니다. CAP-SRP는 AI 콘텐츠 조정 결정에 대한 변조 방지 감사 추적을 구축하는 것을 목표로 합니다. CAP-SRP 준수는 브론즈, 실버, 골드 세 단계로 구분됩니다. 이 시스템은 모든 시도와 결과를 긍정적으로 증명하고, SHA-256을 사용하여 이벤트를 해시하고 체인을 구축함으로써 기록의 완전성을 보장하는 데 중점을 둡니다.
dev.to
India's 3-Hour Deepfake Rule Exposes a Blind Spot: Building Cryptographic Proof of What AI Refused to Generate
