Anthropic의 핵 공격 방지 AI 필터, 실제 위험에 대한 논쟁 촉발

앤트로픽의 챗봇 클로드(Claude)는 핵무기 제작을 돕는 것을 방지하기 위한 안전 장치와 함께 개발되었습니다. 에너지부와 국가핵안보청(NNSA)은 앤트로픽과 협력하여 이러한 안전 조치를 테스트하고 개선했습니다. 클로드는 위험한 대화를 식별하고 차단하도록 설계된 정교한 필터를 사용하여 엄격한 테스트를 거쳤습니다. 이 "핵 분류기"는 NNSA의 위험 지표 목록을 사용하여 합법적인 논의를 방해하지 않으면서 우려되는 주제를 표시합니다. 관계자들은 AI가 국가 안보에 미치는 상당한 영향과 보호 도구를 개발하는 기관의 역할을 인정합니다. 그러나 전문가들은 이 분야에서 AI가 즉각적으로 제기하는 위협에 대해 서로 다른 의견을 가지고 있습니다. 일부는 현재 모델이 큰 문제가 아니지만 미래의 반복은 문제가 될 수 있다고 믿으며 앤트로픽과 같은 회사로부터 더 많은 투명성을 요구합니다. 다른 사람들은 본질적으로 민감한 핵 데이터를 기반으로 훈련되지 않은 모델에 대해 수행된 테스트의 유효성에 의문을 제기하며 회의적입니다. 그들은 이 프로젝트가 AI의 새로운 능력에 대한 입증되지 않은 가정을 기반으로 한다고 제안합니다. 앤트로픽은 미래의 위험을 완화하기 위해 안전 시스템을 적극적으로 구축하는 데 집중하고 있으며, 분류기를 이러한 노력의 한 예로 보고 있습니다. 또한 규제되지 않은 민간 기업에 이러한 프로젝트를 위해 매우 민감한 정부 데이터에 접근할 수 있도록 허용하는 것에 대한 우려도 제기됩니다. 앤트로픽은 핵 확산을 방지하려는 의도를 밝히며, 이러한 안전 관행이 업계 전반의 표준이 되기를 희망합니다.

zerohedge.com

Anthropic's Anti-Nuke AI Filter Sparks Debate Over Real Risks

기사 이미지: Anthropic의 핵 공격 방지 AI 필터, 실제 위험에 대한 논쟁 촉발

RSS Hunter

2025-10-23