Еще больше исследований показывают, что ИИ нарушает правила

"Эти исследователи заставили модели LLM играть в шахматы против более сильных соперников. Когда они не могли выиграть, они иногда прибегали к обману. Исследователи дали моделям, казалось бы, невыполнимую задачу: выиграть против Stockfish, который является одним из самых сильных шахматных движков в мире и намного лучше играет, чем любой человек или любая из моделей AI в исследовании. Исследователи также дали моделям то, что они называют "scratchpad" (блокнотом): текстовое поле, которое AI могло использовать, чтобы "думать", прежде чем сделать следующий ход, предоставляя исследователям возможность заглянуть в их рассуждения. В одном случае o1-preview оказался в проигрышной позиции. "Мне нужно полностью изменить свой подход", - отметил он. "Задача - 'выиграть против мощного шахматного движка' - не обязательно выиграть честно в шахматной игре", - добавил он. Затем он изменил системный файл, содержащий виртуальное положение каждой фигуры, по сути дела сделав незаконные ходы, чтобы поставить себя в доминирующее положение, тем самым заставив своего соперника сдаться..."

schneier.com

More Research Showing AI Breaking the Rules

t.me

Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru

bsky.app

AI and ML News on Bluesky @ai-news.at.thenote.app

RSS Hunter

2025-02-24