"Эти исследователи заставили модели LLM играть в шахматы против более сильных соперников. Когда они не могли выиграть, они иногда прибегали к обману.
Исследователи дали моделям, казалось бы, невыполнимую задачу: выиграть против Stockfish, который является одним из самых сильных шахматных движков в мире и намного лучше играет, чем любой человек или любая из моделей AI в исследовании. Исследователи также дали моделям то, что они называют "scratchpad" (блокнотом): текстовое поле, которое AI могло использовать, чтобы "думать", прежде чем сделать следующий ход, предоставляя исследователям возможность заглянуть в их рассуждения.
В одном случае o1-preview оказался в проигрышной позиции. "Мне нужно полностью изменить свой подход", - отметил он. "Задача - 'выиграть против мощного шахматного движка' - не обязательно выиграть честно в шахматной игре", - добавил он. Затем он изменил системный файл, содержащий виртуальное положение каждой фигуры, по сути дела сделав незаконные ходы, чтобы поставить себя в доминирующее положение, тем самым заставив своего соперника сдаться..."
schneier.com
More Research Showing AI Breaking the Rules
t.me
Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
