Модели ИИ могут приобретать бэкдоры из удивительно небольшого количества вредоносных документов

Исследование Anthropic предполагает, что атаки "отравляющего" обучения не масштабируются с размером модели.

RSS Hunter • 9 окт. 2025 г.