RSS Блог Google AI Заметка

RSS Блог Google AI

Google Research - это блог, цель которого - поделиться последними открытиями и идеями, полученными от научного сообщества Google Research. Эта платформа служит для исследователей средством общения с пользователями за пределами научных кругов, обсуждения новых и перспективных технологий, идей и инноваций. Google Research часто публикует материалы на различные научные темы - от искусственного интеллекта и машинного обучения до инноваций в здравоохранении. Кроме того, в блоге часто обсуждаются новые технологии - от самоуправляемых автомобилей до передовых методов медицинской диагностики и анализа данных. Примечательной особенностью блога является вклад членов команды. Многие из ведущих технологов и исследователей Google предлагают интересные статьи, отражающие их разнообразные интересы и навыки. На этом сайте можно узнать о последних достижениях и перспективах развития мира технологий из первых рук. В блоге есть раздел «Авторы», в котором пользователи могут ознакомиться со статьями и мнениями отдельных авторов. Помимо технических дискуссий и инноваций, блог также затрагивает более широкие социальные и философские вопросы, связанные с новыми технологиями, что позволяет пользователям получить более полное представление о том, как технологии влияют на нашу повседневную жизнь. По сути, блог Google Research предлагает уникальное сочетание технических знаний, научных открытий и социальных последствий, что делает его ценным ресурсом для энтузиастов технологий, исследователей и всех, кто заинтересован в понимании и формировании технологий будущего.

Трэд заметок

Google Research подчеркивает, что научные прорывы достигают своего полного потенциала, когда ими делятся, позволяя другим развивать их. Они рассматривают программное обеспечение с открытым исходным кодом и наборы данных с открытым доступом как ключевые движущие силы современного научного прогресса. Эта приверженность открытой науке способствует сотрудничеству и гарантирует, что инновации принесут пользу мировому сообществу. Google выпустила значимые технологии, такие как архитектура Transformer, оказавшие влияние на различные научные области. Они активно сотрудничают с многочисленными организациями по всему миру, поддерживая крупномасштабные научные консорциумы. Google разработала и поддерживает инструменты и наборы данных с открытым исходным кодом, которыми пользуются более 250 000 исследователей. Эти ресурсы привели к достижениям в области геномики, нейронаук, а также моделирования Земли и атмосферы. В здравоохранении их модели и инструменты с открытым весом демократизируют разработку ИИ. Эти инициативы в области открытой науки продемонстрировали реальное влияние: от улучшения прогнозов погоды для фермеров до ускорения генетической диагностики. Google продолжает инвестировать в создание сообществ и считает, что этот открытый подход ускоряет развитие науки с помощью ИИ.
CdXz5zHNQW_UNWZZjyn1i.png
Google разрабатывает Empirical Research Assistance (ERA) для ускорения научных открытий в различных областях. ERA предназначена для создания программного обеспечения экспертного уровня, показывающего многообещающие результаты в нескольких областях исследований. Исследования варьируются от прогнозирования общественного здравоохранения до астрофизики и климатологии. ERA успешно предсказала госпитализации по гриппу, COVID-19 и RSV, часто превосходя существующие инструменты. В астрофизике ERA в сочетании с Gemini Deep Think помогла решить сложные уравнения, касающиеся гравитационной энергии. Исследователи Google используют ERA для анализа данных со спутников погоды для мониторинга уровней CO2 в атмосфере. Кроме того, инструмент используется для исследования нейронных цепей у рыбок данио-рерио, продвигая исследования в области неврологии. Эти проекты демонстрируют потенциал ИИ для решения проблем и демократизации доступа к сложному моделированию. Google с энтузиазмом относится к прогрессу ERA и других инструментов, стремясь стимулировать научные достижения.
CdXz5zHNQW_uIu6KdxWv3.png
Представьте, что вы хотите переснять фотографию с немного другого ракурса. Новая функция Google Photos Auto frame решает эту проблему с помощью расширенного редактирования изображений. Она использует машинное обучение, чтобы понимать фотографию как 3D-сцену, учитывая пространственную компоновку. Система, по сути, перемещает виртуальную камеру внутри 3D-пространства изображения. Это создает новую, аутентичную перспективу, генерируя ранее невидимый контент. Это отличается от традиционного редактирования, которое ограничено исходной фиксированной точкой обзора. Процесс включает в себя два основных этапа: оценка 3D-сцены и генеративное заполнение. Создаются 3D-карты точек, после чего используется генеративная модель для заполнения недостающих областей. Машинное обучение автоматически обнаруживает лица и ориентацию объектов, чтобы определить идеальную компоновку кадра. Это также корректирует искажения перспективы на широкоугольных фотографиях. Эта технология теперь доступна в Google Photos, улучшая портреты с помощью функции Auto frame. Пользователи могут легко получить доступ к перекомпонованным изображениям в качестве альтернативной версии фотографии. Разработка велась совместными усилиями команд Google DeepMind и Google Platforms & Devices.
CdXz5zHNQW_9GJ7JNiIsF.png
Агенты испытывают трудности в извлечении уроков из прошлого опыта в долгосрочных реальных задачах. Существующие методы запоминания либо записывают исчерпывающие действия, либо только успешные рабочие процессы, не в состоянии выделить рассуждения более высокого уровня и игнорируют неудачи. ReasoningBank решает эту проблему, извлекая полезную информацию как из успешного, так и из неудачного опыта для саморазвития агента. Он создает структурированные воспоминания с заголовками, описаниями и извлеченными шагами рассуждений, обоснованиями решений или операционными выводами. Рабочий процесс запоминания включает в себя непрерывное извлечение, извлечение и консолидацию, при этом LLM-as-a-judge оценивает траектории. В отличие от других методов, ReasoningBank активно анализирует неудачи, чтобы извлечь превентивные уроки и стратегические предохранители. Он интегрируется с масштабированием во время тестирования с учетом памяти (MaTTS), используя параллельное и последовательное масштабирование для генерации более богатых сигналов обучения. MaTTS позволяет агентам широко исследовать, извлекая высококачественные воспоминания посредством самосопоставления и итеративного уточнения. Оценка на эталонных показателях веб-браузинга и разработки программного обеспечения показывает, что ReasoningBank улучшает как эффективность агента (более высокие показатели успеха), так и эффективность (меньше шагов задачи). С MaTTS производительность еще больше повышается, демонстрируя сильную синергию между памятью и масштабированием. Система также демонстрирует возникающую стратегическую зрелость, со временем превращая простые правила в сложные, превентивные логические структуры. ReasoningBank предлагает мощную основу для непрерывного обучения в агентах на основе LLM, подчеркивая масштабирование опыта, управляемое памятью, как решающую границу.
CdXz5zHNQW_SlEGinFE7U.png
Коннектомика использует передовую визуализацию и ИИ для отображения сложной структуры мозга, создавая подробные нейронные сети. Недавний прорыв — полная карта мозга плодовой мушки, решающий шаг для понимания функций мозга. Однако отображение более крупных млекопитающих мозгов, таких как мыши и люди, представляет собой гораздо большую проблему. Google Research разрабатывает новые методы ИИ для ускорения идентификации и визуализации нейронов. Они работают над отображением фрагментов различных животных мозгов, включая небольшой участок человеческого мозга. Развитие "MoGen", синтетической модели формы нейронов, улучшает реконструкцию ИИ. Модели, улучшенные MoGen, снизили ошибки реконструкции на 4,4%, что является существенным достижением. Это улучшение экономит значительное время, потенциально эквивалентное более чем 150 годам ручной работы для мозга мыши. Исследовательская группа разработала несколько инструментов для коннектомики за десятилетие. Нейроны демонстрируют сложные формы, отличающиеся от типичных сферических клеток, что имеет решающее значение для их функции. Модели ИИ, такие как PATHFINDER, используются для создания подробных 3D-форм нейронов из микроскопических изображений. Ручная вычитка остается узким местом в процессе, так как необходимы эксперты-люди для исправления ошибок. MoGen генерирует синтетические нейроны для увеличения обучающих данных для моделей ИИ, таких как PATHFINDER, повышая точность. MoGen преобразует случайные облака точек в реалистичные нейронные формы, используя ИИ, имитируя фактическую морфологию нейронов. Использование MoGen уменьшило ошибки слияния при реконструкции нейронов. Эксперты-люди не могут надежно различить реальные и сгенерированные ИИ фрагменты нейритов, что указывает на реалистичность синтетических данных. Интеграция синтетических форм значительно улучшает производительность модели ИИ. Использование синтетических данных с MoGen привело к снижению ошибок реконструкции на 4,4%, повысив эффективность картирования мозга. Это улучшение является скачком вперед в области коннектомики. Это исследование открывает возможности для генерации конкретных типов нейронов и создания синтетических изображений для более ранних стадий реконструкции. Открытый выпуск MoGen способствует сотрудничеству и дальнейшему прогрессу в нейронауке. Эта работа в конечном итоге направлена на ускорение картирования сложных мозгов, что имеет решающее значение для понимания неврологических процессов и заболеваний.
В статье рассматривается задача создания специализированных моделей ИИ путем генерации синтетических данных, что критически важно в тех случаях, когда реальные данные скудны или недоступны. Simula, предлагаемая структура, переосмысливает генерацию синтетических данных как проблему проектирования механизма, отдавая приоритет контролю. Подход Simula "рассуждение в первую очередь" создает наборы данных, исходя из основополагающих принципов, обеспечивая глобальную диверсификацию с помощью иерархических таксономий. Локальная диверсификация, использующая мета-подсказки, обеспечивает разнообразие внутри концепций и предотвращает коллапс моды. Структура также включает в себя усложнение для корректировки сложности и проверки качества для подтверждения правильности. Система Simula стабильно превосходит более простые базовые показатели в экспериментах в различных областях, таких как кибербезопасность и юридические рассуждения. Оценка использует метрики, основанные на рассуждениях, такие как таксономическое покрытие и калиброванная оценка сложности. Полученные результаты подчеркивают, что данные должны быть адаптированы к возможностям модели, при этом качество данных является более важным, чем просто объем. Simula служит механизмом обработки данных для Google, обеспечивая специализированные модели и функции защиты пользователей. Кроме того, Simula позволяет проводить исследования по синтезу реалистичных сценариев атак и обучению ИИ чтению карт. Синтетические данные имеют решающее значение для будущих достижений в области ИИ, и Simula демонстрирует потенциал управления генерацией данных.
CdXz5zHNQW_Mgtb3ddSdy.png
В тексте обсуждается растущая важность «навыков готовности к будущему», таких как критическое мышление и сотрудничество, на фоне достижений в области искусственного интеллекта. Эти навыки традиционно трудно измерить, но они имеют решающее значение для будущего успеха. Vantage, экспериментальное исследование на основе искусственного интеллекта, направлено на оценку этих навыков с использованием смоделированных бесед. Он использует Executive LLM для управления AI-аватарами и создания сложных сценариев для учащихся. Учащиеся взаимодействуют в открытых задачах в смоделированной среде, чтобы продемонстрировать свои способности. Затем AI Evaluator анализирует беседы, чтобы предоставить обратную связь и оценки навыков на основе рубрики. Исследования, в том числе партнерство с Нью-Йоркским университетом, подтверждают точность системы. Исследования показывают, что оценки AI Evaluator хорошо согласуются с оценками экспертов-людей как для навыков сотрудничества, так и для креативности. Vantage стремится интегрироваться в классы для развития навыков наряду с академическим обучением. Он предлагает масштабируемый метод измерения и продвижения этих важнейших навыков. Будущие исследования будут сосредоточены на переносимости навыков и культурной инклюзивности. В проекте упоминаются различные участники из Google и партнерских организаций.
CdXz5zHNQW_sVjANUGP0h.png
Современный разговорный ИИ может выполнять сложные задачи, но испытывает трудности с длительными взаимодействиями, часто забывая детали или становясь неуместным. Тестирование на реальных людях для улучшения дорогостоящее и трудно масштабируемое. Симуляторы пользователей, основанные на больших языковых моделях, предлагают масштабируемую альтернативу, но часто не хватает реализма, проявляя необычное терпение или знания. Для устранения этого пробела в реализме был разработан новый набор данных под названием ConvApparel. Этот набор данных состоит из диалогов человека и ИИ в области покупок одежды, собранных с использованием протокола с двумя агентами. Участники взаимодействовали либо с полезным, либо с намеренно бесполезным ИИ-агентом. ConvApparel включает подробные пошаговые аннотации состояний пользователя, таких как удовлетворенность и разочарование. Была создана трехкомпонентная система валидации для оценки точности симулятора. Эта система включает статистическое выравнивание на уровне популяции, оценку человекоподобия и контрфактическую валидацию. Контрфактическая валидация оценивает, как симуляторы адаптируются к неожиданному, выходящему за рамки распределения поведению помощника. Эксперименты показали, что, хотя симуляторы, основанные на данных (ICL и SFT), превзошли симуляторы, основанные на подсказках, пробел в реализме сохраняется. Однако симуляторы, основанные на данных, продемонстрировали устойчивость, реалистично меняя поведение при взаимодействии с разочаровывающим "плохим агентом". Набор данных ConvApparel и система предоставляют инструменты для измерения и преодоления пробела в реализме пользовательских симуляторов, что крайне важно для разработки надежного разговорного ИИ.
CdXz5zHNQW_7h9caQjYCe.png
Научные исследования развиваются стремительно, и ИИ предлагает новые способы поддержки их. Одной из основных проблем для исследователей является создание эффективных визуализаций для своей работы. Хотя ИИ может писать текст, генерировать сложные диаграммы и графики является трудной задачей. Система рецензирования также испытывает нагрузку из-за увеличения количества заявок на публикацию, что приводит к усталости и несоответствующим оценкам. Сложные системы ИИ появляются как потенциальные сотрудники в научном процессе, а не только как объекты. Чтобы решить эти проблемы, были разработаны две новые рамки ИИ: PaperVizAgent для генерации академических иллюстраций и ScholarPeer для автоматизированного рецензирования. PaperVizAgent использует многоагентную систему для создания фигур, готовых к публикации, которые превосходят существующие базовые показатели. ScholarPeer выступает в качестве экспертного рецензента, основывая свои критические замечания на обширной литературе и строгой проверке. Эти инструменты направлены на снижение административной нагрузки на исследователей, позволяя им сосредоточиться на инновациях. PaperVizAgent и ScholarPeer представляют собой значительные шаги на пути к экосистеме исследований, поддерживаемой ИИ.
CdXz5zHNQW_07KfQjSTH7.png
Данное исследование посвящено пониманию и согласованию поведенческих склонностей больших языковых моделей (LLM) с поведением человека. В исследовании представлена структура для оценки LLM в реалистичных сценариях, связанных с повседневным взаимодействием. Структура использует психологические опросники, адаптируя их в тесты ситуационных суждений (SJT) для оценки реакции LLM. Исследование анализирует соответствие ответов LLM человеческим предпочтениям, фокусируясь на сценариях с консенсусом и без него. Результаты выявляют расхождения между поведением LLM и человеческим консенсусом, особенно у меньших моделей. Более крупные модели демонстрируют улучшенное соответствие, но все еще имеют ограничения в улавливании полного спектра человеческих мнений. Исследование также подчеркивает несоответствия между самоописанными чертами LLM и их фактическим поведением в SJT. Полученные данные свидетельствуют о важности улучшения поведенческого соответствия LLM для лучшего социального взаимодействия. Эта работа является первым шагом к более глубокому пониманию поведения LLM. Будущие исследования необходимы для устранения выявленных в данном исследовании пробелов.
CdXz5zHNQW_thZvecYCZB.png
Воспроизводимость в машинном обучении имеет решающее значение для построения доверия и обеспечения кумулятивного прогресса. Однако данные, основанные на человеческой истине, создают проблемы из-за присущих разногласий. Текущее тестирование ИИ часто игнорирует эти человеческие вариации, отчасти из-за высокой стоимости сбора данных от нескольких оценщиков. Исследование изучило компромисс между оценкой большого количества элементов с небольшим количеством оценщиков и оценкой меньшего количества элементов с большим количеством оценщиков. Исторически сложилось так, что оценка ИИ отдавала предпочтение подходу "лес", используя всего несколько оценщиков на элемент, что часто недостаточно для улавливания нюансов человеческого мнения. Для решения этой проблемы был разработан симулятор для стресс-тестирования различных масштабов элементов и количества оценщиков в рамках фиксированного бюджета. Эта симуляция использовала разнообразные наборы данных из реального мира, включающие субъективные задачи, такие как обнаружение токсичности. Основные выводы ставят под сомнение стандартную практику использования всего 3-5 оценщиков на элемент, предполагая, что для надежных результатов часто требуется более 10. Оптимальная стратегия зависит от метрики: широта (больше элементов) лучше для большинства голосов, в то время как глубина (больше оценщиков) необходима для улавливания вариаций мнений. Эффективная воспроизводимость достижима при скромном бюджете путем правильной оптимизации соотношения оценок на элемент для выбранной метрики. Это исследование отходит от парадигмы "единой истины", признавая, что понимание человеческих разногласий так же важно, как и согласие, для создания надежного ИИ.
CdXz5zHNQW_Vioi176lmj.png
Google активно работает над постквантовой криптографией с 2016 года, чтобы противостоять потенциальным угрозам со стороны будущих квантовых компьютеров. Новые исследования показывают, что квантовые компьютеры могут взломать криптографию эллиптических кривых, используемую в криптовалютах, с меньшим количеством ресурсов, чем предполагалось ранее. Компания стремится повысить осведомленность в сообществе криптовалют, предоставляя рекомендации по улучшению безопасности и стабильности. Google выступает за переход блокчейнов на постквантовую криптографию для противостояния квантовым атакам, подчеркивая срочность этого процесса. Чтобы ответственно поделиться своими выводами, Google разработал метод доказательства с нулевым разглашением для проверки уязвимостей, предотвращающий неправомерное использование информации. Исследователи делятся обновленными оценками ресурсов, необходимых для взлома криптографии. Эти оценки касаются логических кубитов и вентилей Тоффоли, необходимых для алгоритма Шора. Они проанализировали квантовые схемы, определяя физические кубиты и время выполнения, необходимое для атаки. Исследование рекомендует внедрение постквантовой криптографии, подчеркивая ее важность для долгосрочной жизнеспособности криптовалют. Подход Google к раскрытию информации сосредоточен на ответственном раскрытии уязвимостей, чтобы сбалансировать потребности в безопасности и общественное доверие. Их подход включает в себя смягчение страха и использование доказательств с нулевым разглашением для обеспечения безопасной проверки утверждений. Google стремится поддерживать долгосрочное здоровье криптовалют и технологий блокчейн посредством совместных усилий.
Последнее десятилетие ознаменовалось значительным прогрессом в машинном обучении, но столкнулось с проблемами непрерывного обучения, в отличие от адаптивного человеческого мозга. Современные большие языковые модели страдают от катастрофического забывания, когда изучение новой информации стирает старые знания. Традиционные решения рассматривают архитектуру модели и алгоритмы обучения отдельно, препятствуя созданию унифицированных систем обучения. В статье, опубликованной на NeurIPS 2025, представлено "Вложенное обучение" (Nested Learning), которое объединяет архитектуру и оптимизацию как взаимосвязанные многоуровневые задачи. Эта парадигма предполагает, что архитектура модели и правила обучения являются различными уровнями оптимизации с различными информационными потоками и скоростями обновления. Вложенное обучение обеспечивает большую вычислительную глубину в ИИ, решая такие проблемы, как катастрофическое забывание. Архитектура "Hope", являющаяся доказательством концепции, демонстрирует превосходную производительность в языковом моделировании и управлении долговременной памятью. Перспектива вложенного обучения показывает, что сложные модели машинного обучения представляют собой вложенные задачи оптимизации, открывая новое измерение проектирования для более глубоких обучающих компонентов. Этот подход позволяет осуществлять обновления каждого компонента в различных временных масштабах, улучшая возможности непрерывного обучения. Эксперименты показывают, что принципы вложенного обучения приводят к созданию более выразительных, способных и эффективных алгоритмов обучения.
CdXz5zHNQW_WpDIEoePOg.png
Агенты науки о данных разрабатываются с использованием БВМ для автоматизации сложного рабочего процесса анализа данных. Текущие агенты испытывают трудности с разнообразными форматами данных, найденными в реальных задачах науки о данных, и не имеют надежных методов верификации. DS-STAR - это новый агент науки о данных, предназначенный для преодоления этих ограничений посредством трех ключевых инноваций. Он включает в себя модуль анализа файлов данных для различных форматов данных и содержит этап верификации на основе БВМ. Последовательный процесс планирования итеративно уточняет планы с использованием обратной связи, улучшая производительность при выполнении сложных аналитических задач. DS-STAR отличается в анализе гетерогенных данных из нескольких источников, как это продемонстрировано на тестах. Он превосходит современные методы, такие как AutoGen и DA-Agent, на сложных наборах данных. Исследования удаления подтвердили важность каждого компонента, включая анализатор файлов данных и агент-роутер. Модульная конструкция DS-STAR позволяет использовать его с несколькими БВМ, демонстрируя его адаптивность. Процесс итеративного уточнения более обширный для сложных задач, требующих большего количества раундов для генерации решений.
CdXz5zHNQW_lXX2cFMbHV.png
Леса имеют решающее значение для планеты: они поглощают углерод, регулируют количество осадков и поддерживают биоразнообразие. Несмотря на их важность, тропические леса исчезают с угрожающей скоростью, причем в прошлом году был зафиксирован рекордный показатель. Основной причиной этой вырубки является преобразование среды обитания. Ранее спутниковые данные помогали измерять потери лесов, а новые карты выявляли их причины. Однако этот подход рассматривал только прошлые события.Новая модель глубокого обучения под названием ForestCast использует исключительно спутниковые данные для прогнозирования риска обезлесения. Этот подход преодолевает ограничения старых методов, которые опирались на устаревшие и непоследовательные геопространственные данные. ForestCast анализирует спутниковые временные ряды и исторические потери лесов для прогнозирования будущих рисков. Наиболее значимым входным параметром модели является "история изменений", указывающая, когда произошло обезлесение.Используя только спутниковые данные, ForestCast обеспечивает согласованность и масштабируемость по всему миру. Его модель глубокого обучения на основе трансформеров зрения улавливает пространственный контекст и тенденции обезлесения. Точность модели соответствует или превосходит предыдущие методы, которые использовали специализированные входные карты. Этот прорыв смещает акцент с мониторинга прошлых потерь на проактивное прогнозирование будущих вырубок.Команда выпускает ForestCast, эталонный набор данных и все связанные с ним данные для общественности. Это позволяет сообществу машинного обучения проверять, развивать и улучшать модели оценки риска обезлесения. Цель состоит в том, чтобы предоставить инструмент, который поможет правительствам, компаниям и сообществам вмешаться до того, как леса будут потеряны. Направляя ресурсы в уязвимые районы, этот инструмент прогнозирования призван предотвратить обезлесение, сократить выбросы и защитить биоразнообразие. В конечном счете, речь идет об изменении неизбежного будущего на защищенное путем предоставления информации для принятия обоснованных решений.
Искусственный интеллект обладает огромным потенциалом для преобразования нашего мира и решения глобальных проблем. Проект Suncatcher, новая исследовательская инициатива Google, предлагает использовать космос для вычислений с помощью ИИ. Солнце предлагает обильную, почти непрерывную энергию, что делает космос идеальным местом для инфраструктуры ИИ. Этот проект предусматривает созвездия спутников на солнечной энергии, оснащенных TPU от Google и оптическими каналами связи. Такой подход нацелен на масштабируемость при минимизации воздействия на земные ресурсы. Ключевые технические проблемы включают создание межспутниковых каналов связи масштаба дата-центра с пропускной способностью в десятки терабит в секунду. Спутникам придется летать в тесных построениях для поддержания силы сигнала связи. Управление этими плотно сгруппированными построениями спутников требует сложного моделирования орбитальной динамики. TPU от Google показали многообещающую устойчивость к радиации в тестах, что является решающим фактором для развертывания в космосе. Хотя стоимость запуска является историческим барьером, прогнозы предполагают экономическую целесообразность для космических дата-центров в будущем. Остаются значительные инженерные трудности, включая управление тепловым режимом и наземную связь. Учебная миссия с Planet, запуск двух прототипов спутников к началу 2027 года, позволит дополнительно проверить эти концепции. Это амбициозное начинание соответствует истории Google по реализации новаторских "лунных" проектов.
Google Research недавно продемонстрировал достижения на своем мероприятии Research@, подчеркнув "магический цикл исследований", где прорывы ускоряют реальные решения. Три ключевых объявления включали Google Earth AI, DeepSomatic для геномики и Quantum Echoes для квантовых вычислений. Google Earth AI предлагает беспрецедентное понимание планеты с помощью геопространственных моделей ИИ и интеллектуальных агентов, теперь прогнозируя речные наводнения для миллиардов людей. DeepSomatic, инструмент ИИ с открытым исходным кодом, помогает точно секвенировать геномы раковых клеток для персонализации лечения. Quantum Echoes демонстрирует доказуемое квантовое превосходство, запуская алгоритм значительно быстрее классических методов для моделирования молекулярных взаимодействий. Помимо этого, Google представил ИИ-соавтора для генерации гипотез, AMIE для медицинских рассуждений и MedGemma для понимания медицинских текстов. Исследования также сосредоточены на повышении фактической точности и эффективности больших языковых моделей, а также на разработке методов сохранения конфиденциальности. Алгоритмические инновации способствуют улучшениям в Google Maps, голосовом поиске и новых обучающих платформах. ИИ представлен как усилитель человеческой изобретательности, ускоряющий открытия и решение проблем в различных областях. Это совместное слияние человеческого интеллекта и ИИ обещает новую эру научных достижений на благо всего человечества.
Искусственный интеллект с возможностями генерации позволяет создавать персонализированные trải nghiệm и генерировать неструктурированные данные, что требует надежной защиты конфиденциальности при анализе их использования. Google представила новую систему для "достоверно конфиденциальных сведений" (PPI), которая генерирует динамические данные использования больших языковых моделей (LLM), гарантируя при этом анонимность отдельных лиц. Эта система объединяет большие языковые модели (LLM), дифференциальную конфиденциальность (DP) и доверенные среды выполнения (TEEs) для безопасной обработки на стороне сервера. Разработчики могут использовать "эксперта по данным" LLM внутри TEE для анализа взаимодействий с GenAI, таких как определение настроений пользователей или обсуждаемых тем. Выходные данные LLM затем агрегируются с использованием DP, гарантируя, что индивидуальные данные остаются неисследуемыми, а агрегированные сведения анонимны. Эта система PPI реализуется с помощью конфиденциальной федеративной аналитики (CFA), ранее использовавшейся в Gboard, которая выполняет программное обеспечение анализа внутри TEE для прозрачности. Приложение Recorder на Pixel является первым, кто развернул эту систему PPI, используя модели Gemma для анализа тем транскриптов с сильными гарантиями конфиденциальности. Чтобы способствовать проверке сообществом, Google открыла исходный код сведений, защищенных конфиденциальностью, на основе LLM в Google Parfait. CFA защищает неагрегированные данные пользователей с помощью шифрования и TEE, выдавая выходные данные с формальными гарантиями DP. Устройства пользователей шифруют и загружают данные, а сервисы, размещенные в TEE, управляют ключами дешифрования исключительно для утвержденных шагов обработки. Это гарантирует, что сырые данные никогда не доступны людям или не используются для неавторизованных анализов. LLM извлекает конкретную информацию из сырых данных (структурированное суммирование), и шум DP добавляется к агрегированным результатам, таким как гистограммы, чтобы предотвратить индивидуальное влияние. Вся система, имеющая отношение к конфиденциальности, включая алгоритмы и LLM, открыта для внешней проверки и верификации. PPI в Recorder помогает понимать закономерности взаимодействия пользователей, такие как категоризация целей транскриптов, не компрометируя конфиденциальность. Это также позволяет проводить оценку функций GenAI на устройстве с сохранением конфиденциальности, например, точность суммирования, с помощью LLM авто-оценщика внутри TEE. Будущие разработки направлены на обеспечение более богатых анализов с помощью ускорителей с более высокой пропускной способностью и расширение применения в таких областях, как дифференциально-приватное кластеризация.
CdXz5zHNQW_vH30EZ5WEL.png
Интерактивные инструменты для изучения городской среды, такие как Google Street View, предлагают виртуальное исследование, но недоступны для слепых и слабовидящих пользователей из-за невозможности интерпретировать изображения. Новый прототип, StreetReaderAI, использует мультимодальный искусственный интеллект, чтобы сделать эти иммерсивные впечатления инклюзивными. Разработанный в сотрудничестве слепыми и зрячими исследователями, он объединяет контекстно-зависимый ИИ и доступную навигацию. Ключевые функции включают аудиоописания окружающей среды в реальном времени и диалоговый ИИ для изучения сцен и географии. Пользователи перемещаются с помощью голосовых команд или сочетаний клавиш, получая обратную связь по направлению и местоположению. StreetReaderAI использует подсистемы Gemini AI Describer и AI Chat для анализа сцен и интерактивных вопросов и ответов. AI Describer предоставляет описания, ориентированные на навигацию или в стиле гида, в зависимости от выбранных подсказок. AI Chat позволяет пользователям задавать подробные вопросы о текущих и прошлых видах, сохраняя память диалога. Исследование с участием слепых пользователей показало положительный отклик, подчеркнув полезность виртуальной навигации и взаимодействия с ИИ. Участники сочли AI Chat более увлекательным, чем AI Describer, используя его в шесть раз чаще. Будущие разработки направлены на автономных ИИ-агентов, улучшенное планирование маршрутов и более богатое аудиообращение для более иммерсивного опыта.
CdXz5zHNQW_aVmkDYh264.png
Традиционные пути к здоровью и фитнесу часто фрагментированы и лишены персонализированного руководства, что заставляет людей самим соединять точки. Для решения этой проблемы представляется новый персональный тренер по здоровью на базе искусственного интеллекта, который будет предоставлять проактивные, персонализированные и адаптивные сведения о здоровье и коучинг. Этот инновационный тренер использует достижения моделей Gemini и подход, ориентированный на ИИ, в приложении Fitbit. Он предлагает персонализированные рекомендации, основанные на поведенческой науке, принципах здоровья и индивидуальных показателях, таких как активность и физиологические данные. Тренер также ставит цели и формирует устойчивые привычки с помощью адаптивных, действенных планов. Запускается публичная предварительная версия для подходящих пользователей Fitbit Premium на Android в США, с последующим расширением на iOS. Пользователям потребуется согласиться на доступ к данным для получения персонализированных сведений. Технология, лежащая в основе тренера, включает в себя сложное численное рассуждение на временных рядах данных, многоагентную структуру для скоординированной поддержки и тщательное управление базовыми моделями для контекстов здоровья. Экспертная валидация и итеративный пользовательский дизайн имеют решающее значение для надежности и безопасности, включая консультантов по здоровью, фитнес-профессионалов и обширную обратную связь от пользователей. Строгая система оценки SHARP, включающая миллионы аннотаций и оценок от людей, гарантирует, что тренер безопасен, полезен, точен, релевантен и персонализирован. Пользователям предлагается присоединиться к публичной предварительной версии и поделиться своими отзывами, чтобы помочь сформировать будущее этого тренера по здоровью.
CdXz5zHNQW_Q3km2PNunw.png
Google разработала Earth AI, систему, сочетающую базовые модели с геопространственным агентом рассуждений, работающим на Gemini. Эта система направлена на ответы на сложные, реальные вопросы о нашей планете. Новые инновации включают в себя продвинутые модели Imagery и Population, демонстрирующие передовую производительность. Геопространственный агент рассуждений разбивает сложные запросы на выполнимые шаги. Затем он использует эти специализированные базовые модели и инструменты, чтобы предоставить целостные ответы. Например, он может предсказать обрушение урагана и выявить уязвимые сообщества. Модели Imagery упрощают анализ спутниковых изображений с помощью запросов на естественном языке. Основы динамики населения фиксируют изменения человеческой деятельности, что имеет решающее значение для прогнозов, чувствительных к времени. Объединение этих моделей значительно усиливает прогностическую силу, улучшая оценки риска бедствий. Earth AI используется организациями, такими как FEMA, Bellwether и ООН, для критически важных приложений. Google расширяет доступ к этим возможностям для разработчиков и предприятий.
CdXz5zHNQW_RVd9LDuv6w.png
Текст обсуждает квантовый хаос и его симуляцию с помощью квантовых компьютеров, фокусируясь на новом алгоритме под названием Квантовые Эхо. Квантовые Эхо используют коррелятор вне времени (OTOC), чтобы измерить квантовую динамику и выявить хаотическое поведение. В отличие от предыдущих методов, OTOC производят проверяемые вычислительные результаты, применимые к реальным проблемам. Алгоритм Квантовые Эхо, протестированный на квантовом чипе Willow, демонстрирует режим за пределами классического для определенных квантовых схем. Более высокие OTOC раскрывают сложные квантовые интерференционные эффекты, подобные интерферометрам, усиливающие квантовые сигналы. Эта интерференция приводит к вычислительному разрыву между квантовыми и классическими процессорами, подтвержденному через теоретический анализ и эксперименты. Исследование выявляет препятствия для классических алгоритмов в симуляции квантовой интерференции, что делает расчеты OTOC на Willow значительно более эффективными. В качестве практического применения авторы предлагают обучение Гамильтониана, используя OTOC для улучшения понимания физических систем. Предварительные эксперименты, симулирующие молекулярные структуры с помощью ядерной магнитной резонансной (ЯМР) спектроскопии, демонстрируют потенциал для реальных применений. Подход, хотя еще не за пределами классического, показывает обещания для улучшения моделей молекулярной структуры.
CdXz5zHNQW_YzSmOdOIdM.png
Дифференциальная конфиденциальность защищает отдельные данные, гарантируя, что результаты анализа не раскрывают конфиденциальную информацию. Создание частных синтетических наборов данных предлагает альтернативу приватизации всех аналитических методов. Этот подход использует генеративные модели искусственного интеллекта, такие как Gemini, для создания частного синтетического набора данных, представляющего исходные данные. Модель обучается с использованием методов дифференциальной приватности, что обеспечивает приватность и репрезентативность синтетических данных. Исследование направлено на создание синтетических фотоальбомов, преодоление ограничений простых типов данных. Метод переводит данные изображения в текст и обратно, поддерживая тематическую согласованность в альбомах. Иерархическая генерация, которая сначала подводит итоги альбома, а затем добавляет подписи к фотографиям, повышает согласованность и эффективность использования ресурсов. Этот промежуточный подход на основе текста имеет преимущества при описании изображений и фильтрации данных. Метод был протестирован на наборе данных YFCC100M, подтвердив его эффективность в создании подобных тем альбомов. Для оценки сходства использовались лиловые баллы описаний и анализ темы контента. Исследование демонстрирует способ распространения преимуществ частных синтетических данных на более сложные, структурированные данные. Это может стать мощным решением для обеспечения баланса между требованиями к данным и конфиденциальностью пользователей. Разработанный подход открывает возможности для развития искусственного интеллекта с сохранением конфиденциальности в различных важнейших отраслях.
CdXz5zHNQW_zjOUzHBzKl.png
Астрономы сталкиваются с огромной проблемой обработки данных от современных телескопов, при этом большинство предупреждений являются ложными срабатываниями. Специализированные модели машинного обучения, такие как CNN, используемые для классификации этих событий, часто не обладают объяснимостью, действуя как «черные ящики». Это исследование посвящено использованию Gemini от Google, мультимодальной модели, для классификации астрономических событий и предоставления объяснений. Исследователи использовали обучение с небольшим количеством примеров, используя только 15 размеченных примеров на каждый обзор для обучения Gemini. Gemini достигла точности 93% на трех наборах данных, что сопоставимо со специализированными моделями, при этом объясняя свои рассуждения простым языком. Модель генерирует текстовые объяснения и оценки интереса, превращая ее в прозрачный инструмент, который помогает ученым. Астрономы-люди просмотрели классификации Gemini, посчитав его объяснения последовательными и полезными. Важным открытием стала способность Gemini оценивать свою собственную неопределенность, отмечая потенциальные ошибки. Эта возможность позволяет использовать рабочий процесс с участием человека, фокусируя внимание ученых. Благодаря итеративной обратной связи точность модели на наборе данных MeerLICHT улучшилась. Этот подход представляет собой шаг к научным открытиям, основанным на объяснимом ИИ. Технология может быть быстро адаптирована для новых инструментов и исследований в различных областях. Предполагаемые «агентные помощники» могли бы интегрировать данные, оценивать уверенность и расставлять приоритеты в открытиях. Проект направлен на расширение возможностей исследователей, чтобы задавать следующий великий научный вопрос с помощью доступного ИИ.
CdXz5zHNQW_ufwFOBiDg5.png
Центры обработки данных сталкиваются со сложной задачей эффективного распределения задач обработки, подобно подгонке блоков Тетриса. Срок службы виртуальных машин (VM) неопределен, что затрудняет распределение. Система LAVA от Google нацелена на повышение эффективности, используя ИИ для прогнозирования сроков службы VM. В отличие от единичных прогнозов, LAVA использует "непрерывное перепрогнозирование", постоянно обновляя оценки срока службы. Это включает в себя изученное распределение вероятностей для учета различного поведения VM. Система включает три алгоритма: NILAS, который включает прогнозы срока службы для оптимизации выбора хоста. LAVA размещает VM с более коротким сроком службы вместе с VM с более длительным сроком службы, адаптируясь к неточным прогнозам. LARS минимизирует сбои VM во время обслуживания на основе прогнозируемых сроков службы. Модель интегрирована непосредственно в планировщик для низкой задержки и высокой надежности. NILAS продемонстрировал значительные улучшения, увеличив количество пустых хостов и уменьшив неиспользованные ресурсы. Симуляции показывают, что LAVA и LARS еще больше повысят эффективность. Проект демонстрирует успешную интеграцию машинного обучения для оптимизации центров обработки данных.
CdXz5zHNQW_1ePetmBCYf.png
Рак - это генетическое заболевание, вызванное мутациями в контроле деления клеток. Выявление этих мутаций имеет решающее значение для понимания и эффективного лечения рака. Исследователи разработали DeepSomatic, инструмент машинного обучения, для точного выявления соматических вариантов в опухолевых клетках. DeepSomatic использует свёрточные нейронные сети и работает на различных платформах и типах образцов секвенирования. Инструмент и его обучающий набор данных открыто доступны исследовательскому сообществу для более широкого использования. Разработка DeepSomatic включала создание полного набора данных CASTLE из секвенированных образцов рака молочной железы и лёгких. DeepSomatic превосходит существующие методы выявления вариантов опухоли, особенно вставок и делеций. Инструмент демонстрирует способность обобщать своё обучение на разных типах рака, таких как глиобластома и детский лейкоз. Этот инструмент потенциально может помочь адаптировать существующие методы лечения или привести к разработке новых терапий. DeepSomatic может анализировать образцы опухоли более низкого качества или исторические образцы, и даже работать с образцами только опухоли. Этот прорыв является шагом к персонализированной медицине, направленной на предоставление наиболее эффективных методов лечения пациентам.
CdXz5zHNQW_yN3IPg1z3S.png
Влияние генеративного ИИ растет, но для реальной помощи ему необходимо работать на персональных устройствах. Задача заключается во встраивании сложного ИИ в устройства с ограниченным энергопотреблением для частного использования в течение всего дня. Это требует решения проблем производительности, фрагментации оборудования и доверия пользователей. Google представляет Coral NPU, полнофункциональную платформу, разработанную для частных, эффективных устройств с ИИ на периферии. Она предлагает аппаратную архитектуру, ориентированную на ИИ, созданную для сверхнизкого энергопотребления, постоянной работы ИИ, минимизируя расход заряда батареи на носимых устройствах. Coral NPU переворачивает традиционный дизайн чипов, отдавая приоритет ML-матричному движку для эффективного локального вывода. Архитектура использует блоки IP, совместимые с RISC-V, для минимального энергопотребления, достигая 512 GOPS при нескольких милливаттах. Она имеет открытый и расширяемый дизайн с скалярным ядром, векторным исполнительным блоком и матричным исполнительным блоком. Coral NPU обеспечивает унифицированный опыт разработчика с бесшовной интеграцией с современными компиляторами и ML-фреймворками. Платформа оптимизирована как для архитектур на основе энкодеров, так и для небольших трансформерных моделей, с целью внедрения LLM в носимые устройства. Целевые приложения включают контекстную осведомленность, обработку аудио и изображений, а также взаимодействие с пользователем, все с аппаратной защитой конфиденциальности. Coral NPU создает экосистему через партнерства, например, с Synaptics, для создания открытых стандартов для интеллектуальных устройств.
CdXz5zHNQW_GcRvvAYbP3.png
Сочетание искусственного интеллекта и расширенной реальности может открыть новую парадигму иммерсивных интеллектуальных вычислений, но между экосистемами этих двух областей существует значительный разрыв. Чтобы преодолеть этот разрыв, была представлена платформа XR Blocks — кроссплатформенная платформа, предназначенная для ускорения ориентированного на человека искусственного интеллекта и XR-инноваций. XR Blocks предоставляет модульную архитектуру с компонентами plug-and-play для абстракции ядра в AI и XR, включая пользователя, мир, интерфейс, AI и агентов. Фреймворк разработан с целью ускорения быстрого прототипирования воспринимаемых приложений на основе искусственного интеллекта и XR и основан на доступных технологиях, таких как WebXR, threejs, LiteRT и Gemini. При выборе архитектуры и дизайна API блоков XR руководствуются тремя принципами: простота и читабельность, приоритет опыта создателя и прагматизм, а не завершенность. Платформа XR Blocks ускоряет создание прототипов приложений искусственного интеллекта и XR в реальном времени на настольных симуляторах и устройствах Android XR, а также предоставляет высокоуровневый, ориентированный на человека уровень абстракции, который отделяет «что» взаимодействия от «как» его низкоуровневой реализации. Фреймворк предлагает новую модель реальности, состоящую из высокоуровневых абстракций для управления реализацией блоков XR, которые состоят из заменяемых модулей для взаимодействия XR. Модель реальности реализуется с помощью модульного ядра XR Blocks, который предоставляет высокоуровневые API, позволяющие разработчикам использовать такие подсистемы, как конвейер восприятия и ввода, искусственный интеллект в качестве основной утилиты, а также набор инструментов для опыта и визуализации. Цель XR Blocks — позволить создателям гораздо быстрее переходить от высокоуровневых, ориентированных на человека идей к интерактивным прототипам, а также обеспечить будущее, в котором любая декларативная подсказка может быть напрямую переведена в высокоуровневые инструкции в XR Blocks. В целом, XR Blocks — это фундаментальный шаг к будущему, где границы между программированием, дизайном и разговором исчезают, позволяя нам писать реальности так же плавно, как мы пишем истории.
Голосовой веб-поиск, хотя и распространен, сталкивается с проблемами точности из-за подхода каскадного моделирования. Этот метод сначала преобразует речь в текст, и любые ошибки в транскрипции могут привести к нерелевантным результатам поиска. Например, неправильное толкование слова "scream" (кричать) как "screen" (экран) в запросе о картине может дать совершенно неверную информацию. Для решения этой проблемы технология Speech-to-Retrieval (S2R) полностью обходит этап транскрипции текста. S2R напрямую интерпретирует устные запросы и извлекает информацию, сопоставляя речь с намерением поиска. Этот архитектурный сдвиг направлен на ответ на вопрос "Какая информация ищется?", а не просто "Какие слова были сказаны?". Эксперименты показывают значительный разрыв в производительности между текущими каскадными системами и теоретически идеальной транскрипцией. Модель S2R, использующая архитектуру с двойным кодировщиком, учится представлять аудиозапросы и документы в общем пространстве. Это позволяет ей напрямую определять намерение пользователя по аудио. Оценка на наборе данных SVQ демонстрирует, что S2R значительно превосходит традиционные каскадные модели ASR. Его производительность приближается к теоретическому максимуму, достижимому при идеальном распознавании речи. Google теперь внедрил голосовой поиск на основе S2R на нескольких языках. Они также открывают набор данных SVQ для поощрения дальнейших исследований в этой области.
CdXz5zHNQW_1v0oZ0TyR7.png
Модели преобразования текста в изображение часто испытывают трудности с точным улавливанием намерений пользователя из одиночных запросов. Данное исследование представляет PASTA, агента обучения с подкреплением, который совместно дорабатывает генерацию изображений посредством взаимодействия с пользователем. PASTA устраняет необходимость утомительных проб и ошибок с запросами, вступая в управляемый диалог. В рамках проекта был разработан новый набор данных последовательных пользовательских предпочтений на основе человеческих оценок. Затем PASTA был обучен на смеси реальных и симулированных данных для достижения превосходных результатов. Сбор достаточного количества реальных пользовательских данных затруднен из-за проблем с конфиденциальностью. Стратегия обучения сочетала первоначальную обратную связь от реальных людей с масштабным моделированием пользователей. Была разработана модель пользователя с компонентами полезности и выбора, идентифицирующая скрытые типы пользователей. Эта симулированная обратная связь от пользователей сгенерировала более 30 000 траекторий взаимодействия. PASTA, как агент обучения с подкреплением, основанный на ценности, выбирает оптимальные расширения запросов для максимизации удовлетворенности пользователя. В ходе тестирования PASTA, обученный на комбинированных реальных и симулированных данных, значительно превзошел базовые модели. Оценщики-люди подавляющим большинством предпочли изображения, сгенерированные PASTA, демонстрируя его адаптивность к индивидуальным творческим замыслам. Исследование освещает будущее более интерактивного и адаптивного к предпочтениям генеративного ИИ.
CdXz5zHNQW_JczcxIBw5o.png
Выборочные корректировки изображений улучшают фотографии, позволяя проводить целенаправленные улучшения. Ранее изолировать объекты для редактирования было сложно, особенно на мобильных устройствах с неточными сенсорными элементами управления и ограниченной вычислительной мощностью. Snapseed на iOS теперь представляет кисть "Объект", делающую эти корректировки быстрыми и легкими. Кисть "Объект" позволяет пользователям просто провести пальцем по объекту, чтобы выбрать его для индивидуального редактирования. Эта интуитивно понятная функция работает на основе локальной модели искусственного интеллекта под названием "Интерактивный сегментатор". Эта передовая модель может обнаруживать и выбирать целые объекты или людей менее чем за 20 миллисекунд после простого касания или проведения линии. Модель генерирует точную маску для выбранного объекта, адаптируясь к его границам. Обучение "Интерактивного сегментатора" включало подход "Большого переноса" и дистилляцию знаний от более крупной "учительской" модели к меньшей, эффективной "периферийной" модели. Этот процесс обеспечивает высококачественную сегментацию при сохранении отзывчивости в реальном времени. Система разделяет понимание изображения и запроса на отдельные подмодели, чтобы сбалансировать качество сегментации с низкой задержкой. Наконец, масштабирование маски до размера изображения обеспечивает высокое качество редактирования для детальных корректировок.
CdXz5zHNQW_hPOeNkUBEn.png
Большие языковые модели (LLM) преуспевают в соревновательном программировании и математике, но добились ограниченного успеха в подлинных математических открытиях из-за строгих требований к абсолютной правильности. Предыдущие математические доказательства, сгенерированные ИИ, часто не имели проверяемой корректности без вмешательства человека. В ответ на это исследователи разработали AlphaEvolve, систему, которая использует LLM для итеративной эволюции кода и открытия новых математических структур. Этот подход привел к достижениям в теории сложности, улучшив границу недостижимости для задачи MAX-4-CUT и уточнив границы сложности в среднем случае для свойств случайных графов. Метод использует "лифтинг", при котором эволюционировавшие конечные структуры интегрируются в существующие доказательственные рамки для получения универсальных теорем. В частности, AlphaEvolve обнаружил сложный гаджет для MAX-4-CUT, установив новый предел аппроксимации в 0,987. Система также нашла экстремальные графы Рамануджана с большими разрезами, значительно улучшив нижние границы сложности в среднем случае. Ключевым аспектом этого исследования является проверяемая корректность обнаруженных структур, достигнутая за счет ускорения проверки в 10 000 раз. Хотя ИИ оказывается ценным сотрудником, процесс проверки остается критическим узким местом для будущих математических открытий с помощью ИИ.
CdXz5zHNQW_XJGYeGdkyo.png
Большие языковые модели и данные носимых устройств дают возможность улучшить личное здоровье, хотя индивидуальные потребности в отношении запросов о здоровье сильно различаются. Единая система испытывает трудности как с конкретными, так и с открытыми вопросами о здоровье. Для решения этой проблемы была создана исследовательская платформа Personal Health Agent (PHA) для анализа мультимодальных данных и предоставления персонализированных, основанных на доказательствах рекомендаций. PHA использует многоагентную архитектуру со специализированными под-агентами для науки о данных, предметной экспертизы и коучинга по здоровью. Для оценки использовались реальные данные из исследования, включающего данные носимых устройств, опросники и анализы крови. Система прошла обширные автоматизированные и человеческие оценки по десяти эталонным задачам, включая тысячи аннотаций и значительные усилия экспертов. Эта работа представляет собой комплексную оценку агента по здоровью и закладывает основу для доступных персональных агентов по здоровью. Данное исследование описывает концептуальную основу и не является описанием какого-либо текущего общедоступного продукта или услуги. Подход включал клиентоориентированный дизайн, анализ более 1300 запросов о здоровье и опрос пользователей для выявления ключевых областей поддержки. Оценка системы была сосредоточена на тестировании отдельных агентов и интегрированной PHA с использованием как автоматизированных, так и человеческих оценок.
CdXz5zHNQW_cj4k4bmeKc.png
Навигация по информации о здоровье в Интернете часто бывает утомительной и не учитывает индивидуальные особенности. Большие языковые модели (LLM) могут улучшить эту ситуацию, но существующие ИИ-инструменты действуют как пассивные отвечающие на вопросы. Эксперт, такой как врач, активно ищет контекст, задавая уточняющие вопросы, чтобы дать индивидуальные рекомендации. Данное исследование представляет "Wayfinding AI" — прототип на ранней стадии, основанный на Gemini, предназначенный для проактивного задавания уточняющих вопросов. В ходе пользовательских исследований было установлено, что этот подход значительно более полезен, релевантен и индивидуализирован по сравнению с базовым ИИ. Участники часто испытывают трудности с формулированием своих проблем со здоровьем, что делает проактивное задавание вопросов критически важным для сбора необходимой информации. Wayfinding AI использует три принципа: проактивное разговорное руководство, ответы по мере возможностей на каждом этапе и прозрачное обоснование. Его интерфейс разделяет разговорные элементы и подробную информацию, чтобы гарантировать, что вопросы не будут упущены. Пользовательские исследования показали, что участники предпочли Wayfinding AI за его полезность, релевантность, понимание целей и индивидуализацию. Разговоры с Wayfinding AI были более продолжительными и сосредоточенными на получении подробной информации от пользователя. Этот человеко-ориентированный, разговорный подход демонстрирует потенциал для будущих ИИ-приложений в области здравоохранения.
CdXz5zHNQW_ibR0J0rRzk.png
В этой статье представлен AfriMed-QA, новый эталонный набор данных для оценки больших языковых моделей (LLM) в контексте африканского здравоохранения. Набор данных содержит медицинские вопросы и ответы на английском языке из 16 африканских стран и 60 медицинских школ. AfriMed-QA включает вопросы с несколькими вариантами ответов, вопросы с краткими ответами и запросы потребителей по различным медицинским специальностям. Авторы оценили различные LLM, обнаружив, что большие модели показали лучшие результаты на этом наборе данных. Оценки ответов LLM, проведенные людьми, показали многообещающие результаты, особенно для запросов потребителей. Была создана таблица лидеров для облегчения сравнения моделей и отслеживания прогресса. Команда планирует расширить набор данных, включив в него многоязычные и мультимодальные данные. В исследовании признаются ограничения, в том числе географическое представительство, и подчеркивается необходимость культурно значимых оценок. Исследование подчеркивает важность адаптации LLM для использования в различных условиях здравоохранения. AfriMed-QA направлен на содействие разработке справедливых инструментов искусственного интеллекта для здравоохранения в Африке и за ее пределами. Этот проект получил награду Best Social Impact Paper Award на ACL 2025. Набор данных AfriMed-QA и код оценки находятся в открытом доступе.
CdXz5zHNQW_4Ufi6eam5o.png
Прогнозирование временных рядов имеет решающее значение для бизнеса, но традиционные методы медленны и требуют экспертных знаний. TimesFM, фундаментальная модель с нулевым выстрелом, улучшила это, прогнозируя без обучения, специфичного для задачи. Однако включение нескольких примеров, известных как обучение с несколькими выстрелами, могло бы еще больше повысить точность. Стандартный метод для этого, контролируемое дообучение, вновь вводит сложность.Новый подход In-Context Fine-Tuning (ICF) превращает TimesFM в модель с несколькими выстрелами, используя продолженное предварительное обучение. Это учит модель учиться на примерах времени вывода без дальнейшего обучения пользователя. Модель, теперь TimesFM-ICF, использует архитектуру декодера с патчами и слоями трансформера.Для обеспечения обучения с несколькими выстрелами вводится "общий разделительный токен" для различения истории прогнозов и примеров в контексте. Это предотвращает путаницу данных и позволяет модели учиться на прошлых закономерностях. Затем модель предварительно обучается на новом наборе данных, включающем эти разделители.TimesFM-ICF был оценен на невиданных ранее наборах данных, используя соответствующие исторические данные в качестве примеров в контексте. Он продемонстрировал улучшение точности на 6,8% по сравнению с базовым TimesFM. Важно отметить, что TimesFM-ICF соответствует производительности контролируемого дообучения без необходимости дополнительного сложного обучения.Система также показывает, что большее количество примеров в контексте приводит к лучшим прогнозам, с компромиссом во времени вывода. Это нововведение обещает более доступное и мощное прогнозирование, позволяя предприятиям развертывать адаптивные модели без обширных проектов машинного обучения. Будущая работа направлена на автоматизацию выбора наиболее релевантных примеров в контексте.
CdXz5zHNQW_kfwkschkYN.png
Большие языковые модели позволили разработать агентов для глубоких исследований (DR), способных выполнять различные исследовательские задачи. Существующие DR-агенты часто лишены итеративного процесса человеческих исследований, такого как планирование и пересмотр. Test-Time Diffusion Deep Researcher (TTD-DR) представлен как новый агент, имитирующий процессы человеческих исследований. TTD-DR моделирует написание отчета как процесс диффузии, уточняя черновик посредством итеративных циклов. Он использует алгоритмы, такие как поэтапная самоэволюция и уточнение на уровне отчета. Агент начинает с исследовательского плана, итеративно генерируя поисковые вопросы и синтезируя ответы. Самоэволюция улучшает производительность каждого этапа, используя обратную связь и циклы пересмотра. Устранение шума на уровне отчета использует инструмент поиска для итеративного пересмотра черновика с новой информацией. TTD-DR достигает передовых результатов в написании отчетов в длинной форме и бенчмарках многоступенчатых рассуждений. Результаты показывают, что TTD-DR более эффективен и достигает лучшего качества, чем конкуренты. Подход "сначала черновик" сохраняет исследовательский процесс сфокусированным и последовательным.
CdXz5zHNQW_nyUHb1SxTq.png
Sensible Agent - это фреймворк, разработанный для ненавязчивого взаимодействия с проактивными агентами дополненной реальности. Он использует мультимодальное восприятие для предвидения потребностей пользователя и предоставления контекстно-зависимой помощи, решая ограничения систем на основе голосовых команд. Система состоит из двух модулей: один определяет, какая помощь необходима, а другой решает, как ее предоставить, учитывая социальный контекст. Прототип использует анализатор контекста, генератор проактивных запросов, модуль взаимодействия и генератор ответов, все это работает на Android XR и WebXR. Пользовательское исследование сравнило Sensible Agent с базовой системой, управляемой голосом, в различных сценариях. Исследование показало, что Sensible Agent значительно снижает когнитивную нагрузку и повышает предпочтения пользователей. Время взаимодействия было немного дольше, но предпочтение Sensible Agent предполагает, что компромисс был приемлем. Проактивность меняет отношения пользователя с агентом, способствуя совместному опыту. Будущие направления включают персонализацию, масштабирование на различных устройствах и применение в умных домах и робототехнике. Исследовательская группа интегрировала мультимодальное восприятие и адаптацию в реальном времени для улучшения взаимодействия человека и агента. Авторы выражают благодарность своим соавторам, отзывам и вкладу нескольких команд в Google.
Большие языковые модели часто испытывают трудности с фактичностью, иногда выдавая неверную информацию. Эта проблема возникает из-за различных факторов, включая предвзятые или неполные обучающие данные. Фактичность, способность генерировать правдивый контент, имеет решающее значение для надежных приложений LLM. SLED, новый метод декодирования, направлен на улучшение фактичности без использования внешних баз знаний. SLED использует информацию со всех слоев LLM, а не только с последнего слоя, для уточнения своих предсказаний. Он вычисляет вероятности токенов, используя более ранние слои, присваивая каждому из них веса для более точного вывода. Эксперименты на нескольких задачах и бенчмарках показывают, что SLED улучшает фактическую точность в различных LLM. Например, он может исправить математические ошибки или выбрать правильный ответ на вопрос с несколькими вариантами ответов. SLED легко реализуется, совместим с различными LLM и может быть объединен с другими методами. Его основным компромиссом является минимальное увеличение времени вывода по сравнению с альтернативами. SLED демонстрирует передовые улучшения точности, не требуя обширной точной настройки. Будущая работа может включать объединение SLED с контролируемой точной настройкой и применение его к другим задачам.
CdXz5zHNQW_pbrRdL3gvF.png
Учебники ограничены своим универсальным подходом, им не хватает персонализации и разнообразия форматов. Google изучает генеративный ИИ для создания более эффективных и увлекательных учебных материалов, получивших название Learn Your Way. Learn Your Way стремится преобразовать образовательные материалы, предлагая различные представления контента и персонализированные примеры для каждого ученика. Система использует два ключевых столпа: мультимодальные представления и персонализацию, основанные на науке об обучении. Основным техническим аспектом является использование модели Google LearnLM, интегрированной с Gemini 2.5 Pro. Процесс персонализирует контент, адаптируя его к оценкам и интересам учащихся, заменяя общие примеры. Learn Your Way предлагает такие функции, как иммерсивный текст, викторины, слайды с озвучкой, аудио-уроки и интеллект-карты, адаптированные к индивидуальным потребностям. Педагогические эксперты оценили преобразованные материалы, признав контент высокоэффективным на основе различных критериев. Исследование эффективности показало, что учащиеся, использующие Learn Your Way, набрали больше баллов на тестах на запоминание, чем те, кто использовал стандартное цифровое устройство для чтения. Исследование также показало более высокую удовлетворенность пользователей Learn Your Way. Исследования Google показывают, что ИИ может создавать более эффективные и расширяющие возможности обучения. Будущее проекта сосредоточено на постоянной адаптации контента к индивидуальным потребностям учащихся.
CdXz5zHNQW_60GrmG7HIg.png
Создание ИИ с упором на конфиденциальность является важнейшим направлением по мере того, как ИИ все больше интегрируется в нашу жизнь. Дифференциальная приватность (DP) предлагает математически надежное решение, добавляя калиброванный шум для предотвращения запоминания. Однако применение DP к LLM приводит к компромиссам, которые изменяют традиционные законы масштабирования, снижая стабильность обучения и увеличивая затраты. Новые исследования установили законы, которые точно моделируют эти тонкости, предоставляя полную картину компромиссов между вычислениями, конфиденциальностью и полезностью. Руководствуясь этими исследованиями, была представлена VaultGemma, самая большая открытая модель (1B параметров), обученная с нуля с дифференциальной приватностью. Это исследование количественно оценило выгоду от увеличения размеров модели, размеров пакетов и итераций в обучении DP, уделяя основное внимание соотношению шум-пакет. Ключевым выводом является то, что следует обучать меньшую модель с большим размером пакета, чем без DP. Используя эти законы масштабирования и передовые алгоритмы обучения, была создана VaultGemma, представляющая собой значительный шаг вперед в области приватного ИИ. VaultGemma не демонстрирует обнаруживаемого запоминания своих обучающих данных, подтверждая эффективность обучения DP. Хотя разрыв в полезности между моделями, обученными с DP, и моделями, обученными без DP, сохраняется, это исследование направлено на его систематическое сужение.
CdXz5zHNQW_JPtqyvsr4p.png
Большие языковые модели (LLM) мощные, но вычислительно затратные, что приводит к медленному и дорогостоящему выводу. Чтобы решить эту проблему, каскады используют меньшие, более быстрые модели для обработки простых запросов, прежде чем прибегать к большим, более способным LLM. Этот подход направлен на снижение затрат, задействуя дорогие модели только для сложных задач. Спекулятивное декодирование, с другой стороны, ускоряет вывод LLM, используя меньшую модель для черновой обработки будущих токенов, которые затем проверяются большей моделью параллельно. Это ускоряет генерацию, не изменяя конечный результат, но может увеличить использование памяти. В статье представлен "спекулятивный каскад" - новый метод, сочетающий в себе преимущества как каскадов, так и спекулятивного декодирования. Спекулятивные каскады используют гибкое "правило отсрочки", которое позволяет принять черновик меньшей модели, даже если он не идеально соответствует выводу большей модели. Этот гибридный подход предлагает лучшие компромиссы между стоимостью и качеством, чем любая из этих техник по отдельности. Эксперименты на различных языковых задачах показали, что спекулятивные каскады достигают большего ускорения и лучших показателей качества. Гибкость правила отсрочки позволяет настраивать его на основе уверенности, анализа затрат и выгод или проверок для конкретных токенов. Эта инновация позволяет приложениям LLM быть одновременно быстрее и умнее, оптимизируя баланс между вычислительной стоимостью и качеством вывода.
CdXz5zHNQW_2WaKDny7yL.png
Разработка терапевтических последовательностей ДНК и РНК со специфическими свойствами является серьезной проблемой в медицине из-за огромного количества возможностей. ИИ может помочь ориентироваться в этом обширном пространстве поиска, но эффективная оценка алгоритмов проектирования была сложной задачей. Чтобы решить эту проблему, исследователи представили NucleoBench, стандартизированный бенчмарк для сравнения алгоритмов проектирования нуклеиновых кислот. Этот бенчмарк включал более 400 000 экспериментов по 16 биологическим задачам. В ходе этой работы они разработали AdaBeam, гибридный алгоритм проектирования. AdaBeam превосходит существующие методы по большинству задач и лучше масштабируется с большими моделями ИИ. Типичный процесс компьютерного проектирования включает в себя генерацию данных, обучение модели, генерацию последовательностей-кандидатов и валидацию. NucleoBench фокусируется на улучшении этапа генерации последовательностей-кандидатов. Существующие бенчмарки часто используют устаревшие алгоритмы, которые не используют информацию современных моделей ИИ. NucleoBench включает в себя как градиентно-свободные, так и градиентные алгоритмы для всестороннего сравнения. AdaBeam сочетает в себе эффективные элементы существующих алгоритмов для достижения превосходной производительности и эффективности. Он демонстрирует, что полагаться исключительно на градиенты не всегда необходимо для достижения наилучших результатов. Достижения AdaBeam включают в себя повышение эффективности, более разумное исследование и уменьшение использования памяти.
CdXz5zHNQW_B9cu5RlI3n.png
Научные исследования часто тормозятся трудоемким созданием специализированного программного обеспечения для оценки гипотез. В этой статье представлена система искусственного интеллекта, построенная с использованием Gemini, которая генерирует программное обеспечение экспертного уровня для этой цели. Система принимает в качестве входных данных определенную проблему и метод оценки, предлагая новые концепции и реализуя их в виде кода. Затем она перебирает тысячи вариантов кода для оптимизации производительности, используя стратегию поиска по дереву. Система была протестирована на шести междисциплинарных бенчмарках, достигнув результатов экспертного уровня в геномике, общественном здравоохранении, геопространственном анализе, нейронауке, прогнозировании временных рядов и численном анализе. Эмпирическое программное обеспечение предназначено для максимизации предопределенной оценки качества, а оцениваемые задачи — это те, которые решаются с помощью этого типа программного обеспечения. Система искусственного интеллекта генерирует исследовательские идеи, реализует их в виде исполняемого кода и использует LLM для уточнения кода для улучшения оценок. Этот процесс значительно сокращает время исследования с месяцев до часов или дней, создавая проверяемые, интерпретируемые и воспроизводимые решения. Система искусственного интеллекта продемонстрировала свою эффективность, генерируя новые решения сложных задач, превосходя существующие методы, разработанные экспертами, в нескольких бенчмарках, включая прогнозирование госпитализаций по COVID-19 и интеграцию данных секвенирования РНК отдельных клеток. Этот прогресс обещает ускорить научные открытия, позволяя исследователям быстро изучать огромное количество потенциальных решений.
CdXz5zHNQW_6tSVn14npx.png
Глобальная система здравоохранения сталкивается с критической нехваткой кадров, что стимулирует исследования роли ИИ в медицинском образовании. Google изучает, как ИИ может персонализировать обучение и улучшить клиническое мышление будущих медицинских работников. Были представлены два исследования: одно качественное исследование по разработке ИИ-тьютора для студентов-медиков и другая количественная оценка LearnLM, модели на базе Gemini для обучения. Оба исследования выявили высокий интерес к ИИ, который адаптируется к обучающимся и предоставляет обратную связь. Преподаватели-врачи оценили LearnLM выше за педагогическое качество и способность имитировать хорошего человеческого наставника. Студентам-медикам также было приятнее взаимодействовать с LearnLM. Эти выводы подчеркивают потенциал ИИ в преодолении дефицита медицинских кадров путем совершенствования образования. Исследование акцентирует внимание на подходе, ориентированном на обучающегося, и на ответственном развитии ИИ. Будущая работа будет сосредоточена на обеспечении точности, снижении предвзятости и вдумчивой интеграции ИИ в учебные программы. Google стремится к партнерству с сообществом медицинского образования для подготовки специалистов к будущему, дополненному ИИ.
CdXz5zHNQW_wf799DxNvS.png
Большие языковые модели (LLM) могут анализировать сложные медицинские данные для генерации персонализированных ответов. Оценка этих ответов LLM имеет решающее значение для точности и безопасности, но текущая оценка экспертами является дорогостоящей и не масштабируемой. В этой статье представлена новая система оценки LLM в области здравоохранения с использованием адаптивных точных булевых рубрик. Эти рубрики разбивают сложные вопросы на детальные критерии «Да/Нет» для повышения согласованности и эффективности. Система была протестирована в области метаболического здоровья и продемонстрировала значительно более высокую надежность между оценщиками, чем традиционные шкалы Лайкерта. Адаптивные точные булевы рубрики также сократили время оценки более чем на 50%. Этот метод оказался более чувствительным к вариациям в качестве ответов по сравнению со шкалами Лайкерта. Автоматизация процесса фильтрации рубрик с помощью классификатора zero-shot сохранила аналогичные улучшения оценки. Система надежно обнаруживала снижение качества ответов LLM при изменении реальных данных участников. Предложенный подход предлагает масштабируемый и оптимизированный метод оценки LLM в специализированных областях.
CdXz5zHNQW_fzb8IapfxF.png
YouTube Shorts стремится предоставить авторам волшебные эффекты в реальном времени, применяя продвинутый генеративный ИИ на мобильных устройствах. Это достигается путем преобразования больших ИИ-моделей в более мелкие, специализированные для конкретных задач, которые могут эффективно работать кадр за кадром на телефонах. Процесс начинается с подбора разнообразных и высококачественных наборов данных лиц, обеспечивая инклюзивность по всем демографическим группам. Ключевой техникой является дистилляция знаний, использующая мощную "учительскую" модель и легкую "студенческую" модель. Учитель, изначально StyleGAN2, а затем модели, такие как Imagen, выполняет сложное генерирование, в то время как студент, построенный с использованием UNet и MobileNet, оптимизирован для мобильных устройств. Обучение включает генерацию пар изображений учителем и обучение студента с использованием конкретных функций потерь и поиска нейронных архитектур. Важной проблемой является сохранение идентичности пользователя, решаемой с помощью техники, называемой инверсией с ключевой настройкой (PTI). PTI тонко настраивает генератор под конкретное лицо, позволяя вносить изменения в скрытом пространстве без искажения сходства. Решение для устройств использует фреймворк MediaPipe от Google для обнаружения лиц, выравнивания и бесшовной интеграции студенческой модели. Конвейер обеспечивает производительность в реальном времени, работая быстрее 33 миллисекунд на кадр для плавного пользовательского опыта. Эта технология с 2023 года лежит в основе множества популярных функций YouTube Shorts, расширяя творческие возможности. Команда продолжает внедрять инновации, стремясь интегрировать новые модели и сократить задержку для более широкой доступности на устройствах.
CdXz5zHNQW_8wndZAykAn.gif
Большие наборы данных, основанные на пользователях, являются жизненно важными для развития ИИ, улучшения услуг и персонализации. Обмен этими наборами данных ускоряет исследования, но создает риски для приватности. Дифференциально-частичное (ДЧ) выделение разделов идентифицирует безопасные, общие подмножества данных, добавляя шум для защиты индивидуальных вкладов. Это имеет решающее значение для задач, таких как извлечение словаря и частный анализ данных. Обработка огромных наборов данных требует параллельных алгоритмов, не только для скорости, но и для обработки огромных масштабов. Наша публикация, «Масштабируемое частное выделение разделов через адаптивное взвешивание», представляет эффективный параллельный алгоритм для ДЧ выделения разделов. Этот алгоритм масштабируется до сотен миллиардов элементов, значительно превышая предыдущие возможности. Целью является максимизация выбранных элементов, сохраняя приватность пользователей, приоритизируя популярные данные. Стандартный подход заключается в взвешивании, добавлении шума и фильтрации элементов на основе порогового значения. Наш новый алгоритм адаптивного взвешивания, MAD, перераспределяет «избыточное вес» от популярных элементов к тем, которые чуть ниже порога приватности. Это улучшает полезность, включая больше элементов без компромисса приватности или масштабируемости. Эксперименты показывают, что наш двухитерационный алгоритм MAD достигает результатов на уровне состояния искусства, выводя больше элементов, чем другие методы с теми же гарантиями приватности. Мы открыто публикуем наш алгоритм, чтобы стимулировать инновации в сообществе.
CdXz5zHNQW_KfEjWw8vMV.png
Генерация крупномасштабных синтетических текстовых данных с дифференциальной приватностью сталкивается с торговым оффшором между приватностью, вычислениями и полезностью. Обычный, но вычислительно дорогой метод заключается в тонкой настройке крупных языковых моделей на частных данных. Существующие подходы на основе API, такие как Aug-PE, полагаются на ручные запросы и испытывают трудности с использованием частной информации. Предлагаемый фреймворк CTCL генерирует синтетические данные, сохраняющие приватность, без тонкой настройки массивных языковых моделей или требований к обширной инженерии запросов. Он использует легковесную модель с 140 миллионами параметров, что делает его подходящим для ресурсно-ограниченных сред. CTCL генерирует данные, учитывая тематическую информацию, чтобы соответствовать распределению частных данных. В отличие от Aug-PE, CTCL может производить неограниченное количество синтетических данных без дополнительных затрат на приватность. Эксперименты показывают, что CTCL превосходит базовые линии, особенно при сильных гарантиях приватности, демонстрируя свою эффективность в захвате полезной информации. Исследования абляции подтверждают важность предварительной тренировки и условий на основе ключевых слов для производительности и масштабируемости CTCL. Основная идея CTCL может быть расширена до более крупных моделей для улучшения реальных приложений.
CdXz5zHNQW_Z0zBIj4T6I.png
"Наше исследование представляет g-AMIE (guardrailed-AMIE), систему искусственного интеллекта, разработанную для контроля со стороны врача в медицинской диагностике. G-AMIE может собирать информацию о пациенте посредством диалога и генерировать резюме, дифференциальные диагнозы и планы лечения. Важно отметить, что система ограничена в предоставлении индивидуальных медицинских консультаций. Врачи-кураторы проверяют и редактируют эту информацию через интерфейс "кабины врача" перед общением с пациентом. Рандомизированное исследование виртуального ОСК (объективного структурированного клинического экзамена) сравнило работу g-AMIE с работой практикующих медсестер и помощников врачей/ассоциатов, работающих при аналогичных ограничениях. Результаты показали, что диагностическая производительность g-AMIE и планы лечения были предпочтительнее для кураторов и независимых оценщиков. Пациенты-актеры также предпочли черновики сообщений для пациентов, подготовленные g-AMIE. Исследование подчеркнуло соблюдение g-AMIE правил безопасности и высокое качество сбора анамнеза и SOAP-записей. Хотя g-AMIE превзошла контрольные группы по нескольким показателям, рабочий процесс был специально разработан для ИИ и не полностью отражает подготовку клиницистов. Ограничения включают потенциальное несогласие оценщиков и когнитивную нагрузку при надзоре. Будущие работы будут сосредоточены на оптимизации детализации и изучении реальных условий. Эта структура представляет собой значительный шаг к сотрудничеству человека и ИИ в медицинской диагностике."
CdXz5zHNQW_SB8tCM3LeP.jpeg