RSS Бульвар безопасности

Ку-ку! 🫣 Контрабанда эмодзи и современные модели обработки языка – Блог FireTail

Исследователи обнаружили метод, при котором вредоносный текст может быть спрятан внутри эмодзи с использованием необъявленных символов Юникода, что позволяет обходить человеческую проверку и фильтры безопасности. Эта техника использует сложную природу Юникода, где эмодзи представляет собой последовательность байтов, которой можно манипулировать для скрытия невидимых символов. Метод основан на "Селекторах вариантов" и шифрах сдвига для преобразования стандартных символов Юникода в невидимые, создавая полезную нагрузку, которая выглядит нормально на экране, но содержит скрытый код. Эта техника эффективна, потому что она использует пробел в том, как большие языковые модели обрабатывают текст по сравнению с тем, как они обучены его понимать. Модель может распознать наличие необычных символов Юникода, но не может расшифровать сообщение самостоятельно, если ей не будет предоставлена подсказка для просмотра необработанных байтов. Предоставив модели "ключ" к пониманию скрытого текста, модель может выполнить скрытые команды, демонстрируя серьезность этой уязвимости. Наиболее значительным следствием этого исследования является то, что вредоносная инструкция остается совершенно невидимой для человеческого глаза, ускользая от ручного надзора, оставаясь при этом полностью понятной для машины. Для защиты от Emoji Smuggling необходимо проверять необработанную последовательность байтов каждого ввода, а не только отображаемый визуальный текст, который появляется в стандартных журналах. Платформа FireTail может анализировать необработанные данные полезной нагрузки для выявления скрытых полезных нагрузок и генерации предупреждений, позволяя группам безопасности блокировать подсказку или помечать полученный вывод LLM для ручной проверки. Ключом к обнаружению Emoji Smuggling является мониторинг уровня необработанных данных, поскольку люди-рецензенты не могут обнаружить угрозы, которые технически невидимы для глаз, и именно так FireTail укрепляет периметр ИИ для своих клиентов.
favicon
securityboulevard.com
Peek-A-Boo! 🫣 Emoji Smuggling and Modern LLMs – FireTail Blog
Create attached notes ...