StreetReaderAI: На пути к обеспечению доступности уличных видов с помощью мультимодального ИИ, учиты

StreetReaderAI: На пути к обеспечению доступности уличных видов с помощью мультимодального ИИ, учитывающего контекст

Интерактивные инструменты для изучения городской среды, такие как Google Street View, предлагают виртуальное исследование, но недоступны для слепых и слабовидящих пользователей из-за невозможности интерпретировать изображения. Новый прототип, StreetReaderAI, использует мультимодальный искусственный интеллект, чтобы сделать эти иммерсивные впечатления инклюзивными. Разработанный в сотрудничестве слепыми и зрячими исследователями, он объединяет контекстно-зависимый ИИ и доступную навигацию. Ключевые функции включают аудиоописания окружающей среды в реальном времени и диалоговый ИИ для изучения сцен и географии. Пользователи перемещаются с помощью голосовых команд или сочетаний клавиш, получая обратную связь по направлению и местоположению. StreetReaderAI использует подсистемы Gemini AI Describer и AI Chat для анализа сцен и интерактивных вопросов и ответов. AI Describer предоставляет описания, ориентированные на навигацию или в стиле гида, в зависимости от выбранных подсказок. AI Chat позволяет пользователям задавать подробные вопросы о текущих и прошлых видах, сохраняя память диалога. Исследование с участием слепых пользователей показало положительный отклик, подчеркнув полезность виртуальной навигации и взаимодействия с ИИ. Участники сочли AI Chat более увлекательным, чем AI Describer, используя его в шесть раз чаще. Будущие разработки направлены на автономных ИИ-агентов, улучшенное планирование маршрутов и более богатое аудиообращение для более иммерсивного опыта.

StreetReaderAI: Towards making street view accessible via context-aware multimodal AI research.google

RSS Hunter • 28 окт. 2025 г.