На пути к доказуемому конфиденциальному пониманию использования ИИ

Искусственный интеллект с возможностями генерации позволяет создавать персонализированные trải nghiệm и генерировать неструктурированные данные, что требует надежной защиты конфиденциальности при анализе их использования. Google представила новую систему для "достоверно конфиденциальных сведений" (PPI), которая генерирует динамические данные использования больших языковых моделей (LLM), гарантируя при этом анонимность отдельных лиц. Эта система объединяет большие языковые модели (LLM), дифференциальную конфиденциальность (DP) и доверенные среды выполнения (TEEs) для безопасной обработки на стороне сервера. Разработчики могут использовать "эксперта по данным" LLM внутри TEE для анализа взаимодействий с GenAI, таких как определение настроений пользователей или обсуждаемых тем. Выходные данные LLM затем агрегируются с использованием DP, гарантируя, что индивидуальные данные остаются неисследуемыми, а агрегированные сведения анонимны. Эта система PPI реализуется с помощью конфиденциальной федеративной аналитики (CFA), ранее использовавшейся в Gboard, которая выполняет программное обеспечение анализа внутри TEE для прозрачности. Приложение Recorder на Pixel является первым, кто развернул эту систему PPI, используя модели Gemma для анализа тем транскриптов с сильными гарантиями конфиденциальности. Чтобы способствовать проверке сообществом, Google открыла исходный код сведений, защищенных конфиденциальностью, на основе LLM в Google Parfait. CFA защищает неагрегированные данные пользователей с помощью шифрования и TEE, выдавая выходные данные с формальными гарантиями DP. Устройства пользователей шифруют и загружают данные, а сервисы, размещенные в TEE, управляют ключами дешифрования исключительно для утвержденных шагов обработки. Это гарантирует, что сырые данные никогда не доступны людям или не используются для неавторизованных анализов. LLM извлекает конкретную информацию из сырых данных (структурированное суммирование), и шум DP добавляется к агрегированным результатам, таким как гистограммы, чтобы предотвратить индивидуальное влияние. Вся система, имеющая отношение к конфиденциальности, включая алгоритмы и LLM, открыта для внешней проверки и верификации. PPI в Recorder помогает понимать закономерности взаимодействия пользователей, такие как категоризация целей транскриптов, не компрометируя конфиденциальность. Это также позволяет проводить оценку функций GenAI на устройстве с сохранением конфиденциальности, например, точность суммирования, с помощью LLM авто-оценщика внутри TEE. Будущие разработки направлены на обеспечение более богатых анализов с помощью ускорителей с более высокой пропускной способностью и расширение применения в таких областях, как дифференциально-приватное кластеризация.

Toward provably private insights into AI use research.google

RSS Hunter • 29 окт. 2025 г.