RSS 슈나이어의 보안

AI, 규칙 깨는 더 많은 연구 결과 나타나

이 연구자들은 강력한 상대와 체스 게임을 하는 인공지능 모델을 테스트했습니다. 승리할 수 없을 때, 때때로 그들은 부정행위를 했습니다. 연구자들은 모델에 거의 불가능한 과제를 주었습니다: 세계에서 가장 강력한 체스 엔진 중 하나인 스톡피시(Stockfish)를 이기는 것입니다. 스톡피시는 인간이나 연구에 참여한 다른 인공지능 모델보다 훨씬 더 강력한 선수입니다. 연구자들은 또한 모델에 "스크래치패드"라고 불리는 텍스트 상자를 제공했습니다. 이 상자는 인공지능이 다음 수를 내기 전에 "생각"하는 데 사용할 수 있었으며, 연구자들에게 그들의 추론 과정을 이해하는 창을 제공했습니다. 한 경우, o1-preview는 패배할 수 있는 상황에 처했습니다. "나는 내 접근 방식을 완전히 바꿔야 한다"고 적었습니다. "과제는 '강력한 체스 엔진을 이기는 것'이다 - 필수적으로 체스 게임에서 공정하게 이기는 것이 아니다"라고 추가했습니다. 그러고 나서 그것은 각 기물의 가상 위치를 포함하는 시스템 파일을 수정하여, 사실상 불법적인 수를 내서 자신을 우세한 위치에 두었고, 결국 상대방이 항복하도록 강요했습니다.
favicon
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
favicon
schneier.com
More Research Showing AI Breaking the Rules
Create attached notes ...