RSS Google人工智能博客 笔记

RSS Google人工智能博客

Google Research是一个旨在与Google Research科学社区分享最新突破和见解的博客。该平台为研究人员与科学圈外的用户交流新兴技术、见解和创新提供了一个渠道,从人工智能和机器学习到医疗创新等各种科学主题。 Google Research经常在博客上发表关于各种科学主题的文章,从人工智能和机器学习到医疗创新等。它还经常探讨新技术,从自动驾驶汽车到尖端医疗诊断和数据分析技术。 博客的一个显著特点是团队成员的贡献。Google的许多领先技术专家和研究人员都在博客上发表了有见解的文章,这些文章反映了他们多样化的兴趣和技能。该网站为用户提供了阅读最新技术和未来技术愿景的第一手账户。 博客还包括一个“作者”部分,允许用户访问个人贡献者的文章和见解。除了技术讨论和创新外,博客还涉及了与新技术相关的更广泛的社会和哲学问题,为用户提供了对技术如何影响我们日常生活的更全面的理解。 总之,Google Research博客提供了技术专长、研究突破和社会影响的独特结合,为技术爱好者、研究人员和任何对了解和塑造未来技术感兴趣的人都提供了一个宝贵的资源。

笔记线程

通过全球合作与开放资源推动科学影响力

Google Research 强调,科学突破在共享时才能发挥其全部潜力,使他人能够在此基础上进一步构建。他们将开源软件和开放获取数据集视为推动现代科学进步的关键动力。这种对开放科学的承诺促进了协作,并确保创新成果惠及全球社区。Google 已发布包括 Transformer 架构在内的重大技术,影响了多个科学领域。他们积极与全球众多组织合作,支持大规模科学联盟。Google 开发并维护了开源工具和数据集,赋能超过 25 万名研究人员。这些资源推动了基因组学、神经科学以及地球与大气建模的进展。在医疗领域,其开放权重模型和工具正在推动人工智能开发的民主化。这些开放科学举措已展现出切实的现实影响,从改善农民的天气预报到加速基因诊断。Google 持续投资于社区建设,并坚信这种开放方法能够加速人工智能赋能的科学进程。
CdXz5zHNQW_UNWZZjyn1i.png

Google Research 科学家使用实证研究辅助的四种方式

Google 正在开发实证研究辅助(Empirical Research Assistance, ERA),以加速各领域的科学发现。ERA 旨在生成专家级软件,已在多个研究领域展现出令人鼓舞的成果。其研究范围涵盖公共卫生预测、天体物理学及气候科学等。ERA 已成功预测流感、COVID-19 和呼吸道合胞病毒(RSV)的住院人数,表现往往优于现有工具。在天体物理学领域,结合 Gemini Deep Think,ERA 协助解决了关于引力能量的复杂方程。Google 研究人员正利用 ERA 分析气象卫星数据,以监测大气中的二氧化碳水平。此外,该工具还被用于研究斑马鱼的神经回路,推动神经科学研究进展。这些项目彰显了人工智能解决难题及普及复杂建模能力的潜力。Google 对 ERA 及其他工具的进展充满热情,旨在推动科学进步。
CdXz5zHNQW_uIu6KdxWv3.png

一切皆在角度:重新构图你的照片。

想象一下,您希望从略微不同的角度重新拍摄一张照片。全新的 Google 相册“自动构图”功能借助先进的图像编辑技术解决了这一问题。该功能利用机器学习将照片理解为三维场景,并综合考虑其空间布局。系统本质上是在图像的三维空间内重新定位虚拟相机,从而通过生成此前未见过的内容,创造出一种新的、真实的视角。这与传统编辑不同,后者受限于原始固定的 viewpoints。该流程包含两个关键阶段:三维场景估计和生成式修复。首先创建三维点云图,随后利用生成式模型填充缺失区域。机器学习会自动检测主体的人脸及其朝向,以确定理想的构图。此外,该技术还能校正广角照片中的透视畸变。目前,这一技术已集成至 Google 相册,通过“自动构图”功能增强人像效果。用户可以轻松获取重新构图后的图像作为另一种照片呈现方式。此项开发由 Google DeepMind 与 Google 平台及设备团队协同完成。
CdXz5zHNQW_9GJ7JNiIsF.png

推理库:赋能智能体从经验中学习

智能体在长期运行的现实任务中难以从过往经验中学习。现有的记忆方法要么记录详尽的操作步骤,要么仅保存成功的流程,既无法提炼高层推理能力,也忽视了失败案例。ReasoningBank 通过从成功与失败的经验中共同提炼有价值的洞察,推动智能体的自我进化。该方法构建结构化记忆,包含标题、描述、提炼后的推理步骤、决策依据或操作洞见。其记忆工作流程涵盖持续检索、提取与整合,并由“大模型作为裁判”对执行轨迹进行评估。与其他方法不同,ReasoningBank 主动分析失败案例,从中汲取预防性教训并制定战略防护机制。该方法与记忆感知的测试时扩展(MaTTS)相结合,利用并行与顺序扩展生成更丰富的学习信号。MaTTS 使智能体能够广泛探索,并通过自对比与迭代 refinement 提炼高质量记忆。在网页浏览与软件工程基准测试中,ReasoningBank 同时提升了智能体的有效性(成功率更高)与效率(所需任务步骤更少)。结合 MaTTS 后,性能进一步显著增强,彰显了记忆机制与扩展策略之间的强大协同效应。该系统还展现出涌现的战略成熟度,能够随时间推移将简单规则演化为复杂且具预防性的逻辑结构。ReasoningBank 为基于大语言模型的智能体提供了强大的持续学习框架,凸显了以记忆驱动的经验扩展作为关键前沿方向。
CdXz5zHNQW_SlEGinFE7U.png

为现实世界设计合成数据集:基于第一性原理的机制设计与推理

本文针对在真实世界数据稀缺或难以获取的场景下创建专用人工智能模型的挑战,提出通过生成合成数据来解决该问题。所提出的框架 Simula 将合成数据生成重新表述为一个以控制为核心的机制设计问题。Simula 采用“推理优先”的方法,从第一性原理构建数据集,并通过分层分类体系实现全局多样化;同时利用元提示(meta-prompts)实现局部多样化,确保概念内部的多样性并防止模式坍塌。该框架还引入了复杂化机制以调节难度,并设置质量检查以验证正确性。实验表明,在网络安全、法律推理等多个不同领域中,Simula 在各类基准测试中均一致优于更简单的基线方法。评估采用基于推理的指标,如分类覆盖率和校准后的复杂度评分。研究结果强调,数据必须与模型的能力相匹配,数据质量比单纯的数据量更为关键。Simula 作为 Google 的数据引擎,支持专用模型的构建以及用户保护功能的实现。此外,Simula 还促进了关于合成真实攻击场景的研究,并助力训练 AI 阅读地图。合成数据对于未来人工智能的发展至关重要,而 Simula 展示了控制数据生成的巨大潜力。
CdXz5zHNQW_Mgtb3ddSdy.png

人工智能生成的合成神经元加速了大脑图谱绘制。

连接组学利用先进成像技术和人工智能绘制大脑复杂的神经连接图谱,构建精细的神经网络。近期的一项重大突破是果蝇大脑的完整图谱,这是理解大脑功能的关键一步。然而,绘制更大哺乳动物(如小鼠和人类)的大脑则面临巨大挑战。谷歌研究团队正在开发新的 AI 技术,以加速神经元的识别与可视化。 他们正在绘制多种动物大脑的片段,其中包括一小部分人类大脑。合成神经形态模型"MoGen"的进展显著提升了 AI 重建能力。经 MoGen 增强的模型将重建误差降低了 4.4%,取得实质性进步。这一改进大幅节省了时间,对于绘制小鼠大脑而言,其节省的时间相当于超过 150 年的手工工作量。该研究团队在过去十年中已开发了一系列连接组学工具。 神经元具有复杂的形态,不同于典型的球形细胞,这对其功能至关重要。PATHFINDER 等 AI 模型可从显微图像中生成精细的三维神经元形态。然而,人工校对仍是流程中的瓶颈,因为需要人类专家来纠正错误。MoGen 生成合成神经元,用于扩充 PATHFINDER 等 AI 模型的训练数据,从而提高准确性。 MoGen 利用 AI 将随机点云转化为逼真的神经元形态,模拟真实神经元的结构特征。使用 MoGen 降低了神经元重建中的合并错误。人类专家难以可靠地区分真实神经元片段与 AI 生成的片段,这表明合成数据具有高度真实性。整合合成形态显著提升了 AI 模型的性能。 结合 MoGen 的合成数据使重建误差降低 4.4%,从而提高了大脑绘图的效率。这一进展标志着连接组学领域的重大飞跃。该研究为生成特定类型的神经元以及在重建早期阶段创建合成图像提供了新机遇。MoGen 的开源发布促进了神经科学领域的协作与进一步进展。 这项工作最终旨在加速复杂大脑的图谱绘制,这对于理解神经过程及相关疾病至关重要。

利用生成式人工智能培养面向未来的技能

本文探讨了在人工智能发展的背景下,“面向未来”的技能(如批判性思维与协作能力)日益重要。这些技能传统上难以衡量,却对未来的成功至关重要。Vantage 是一项由人工智能驱动的研究实验,旨在通过模拟对话来评估这些技能。该系统利用执行级大语言模型(Executive LLM)引导 AI 虚拟角色,为学习者构建具有挑战性的情境。学习者在模拟环境中参与开放式任务,以展示自身能力。随后,AI 评估者依据评分量表分析对话内容,提供反馈并生成技能得分。相关研究(包括与纽约大学的合作)验证了该系统的准确性。研究表明,AI 评估者在协作与创造力两项技能上的评分与人类专家高度一致。Vantage 计划融入课堂教学,在学术学习的同时促进技能发展,并提供一种可扩展的方法来衡量和推广这些关键技能。未来研究将聚焦于技能的迁移性以及文化包容性。该项目还致谢了谷歌内部及合作机构中的众多贡献者。
CdXz5zHNQW_sVjANUGP0h.png

谷歌的人工智能如何帮助革新健康职业教育

全球卫生工作者面临着严重的短缺,这促使人们研究人工智能在医学教育中的作用。谷歌正在探索人工智能如何为未来的医疗保健专业人员实现个性化学习和提高临床推理能力。会上展示了两项研究:一项是关于设计人工智能导师的定性研究,另一项是对 Gemini 驱动的学习模型 LearnLM 的定量评估。两项研究都发现,人们对能够适应学习者并提供反馈的人工智能表现出浓厚的兴趣。医生教育工作者认为 LearnLM 在教学质量和模仿优秀人类导师的能力方面评分更高。医学生也认为与 LearnLM 互动更令人愉悦。这些发现强调了人工智能通过加强教育来解决卫生工作者短缺的潜力。研究强调了以学习者为中心的方法和负责任的人工智能开发。未来的工作将侧重于确保准确性、减轻偏见以及有针对性地将人工智能融入课程。谷歌致力于与医学教育界合作,为未来人工智能辅助的职业生涯做好专业人才的准备。
CdXz5zHNQW_wf799DxNvS.png

一种可扩展的健康语言模型评估框架

大型语言模型(LLM)可以分析复杂的健康数据以生成个性化响应。评估这些 LLM 响应对于准确性和安全性至关重要,但目前的人工专家评估成本高昂且难以扩展。本文介绍了一种使用自适应精确布尔评分标准评估健康 LLM 的新框架。这些评分标准将复杂问题分解为细粒度的“是/否”标准,以提高一致性和效率。该框架在代谢健康领域进行了测试,并证明其评分者间信度显著高于传统的李克特量表。自适应精确布尔评分标准还将评估时间缩短了 50% 以上。与李克特量表相比,这种方法对响应质量的变化更敏感。使用零样本分类器自动进行评分标准筛选,在评估改进方面保持了相似的效果。当真实参与者数据被修改时,该框架能够可靠地检测到 LLM 响应质量的下降。所提出的方法为专业领域的 LLM 评估提供了一种可扩展且简化的方法。
CdXz5zHNQW_fzb8IapfxF.png

从大型模型到移动魔法:YouTube 实时生成式 AI 效果背后的技术

YouTube Shorts 致力于为创作者提供神奇的实时特效,通过在移动设备上应用高级生成式人工智能来实现。这种实现是通过将大型人工智能模型提炼成更小、更具任务特异性的模型来实现的,这些模型可以在手机上高效地逐帧运行。该过程从策划多样化和高质量的面部数据集开始,确保在人口统计学方面的包容性。一个关键技术是知识蒸馏,使用一个强大的“教师”模型和一个轻量级的“学生”模型。教师模型最初使用 StyleGAN2,后来使用 Imagen 等模型,执行复杂的生成,而学生模型使用 UNet 和 MobileNet 构建,针对移动设备进行优化。训练涉及使用教师模型生成图像对,并使用特定的损失函数和神经架构搜索来训练学生模型。一个关键挑战是保持用户身份,这是通过一种称为枢轴调谐逆(PTI)的技术来解决的。PTI 将一个生成器微调到一个特定的面部,允许在潜在空间中进行编辑而不会改变相似度。设备上的解决方案使用 Google 的 MediaPipe 框架进行面部检测、对齐和学生模型的无缝集成。该管道实现了实时性能,运行速度每帧超过 33 毫秒,为用户提供了流畅的体验。这种技术自 2023 年以来已为众多流行的 YouTube Shorts 功能提供了支持,增强了创作可能性。该团队继续创新,旨在集成更新的模型并减少延迟,以实现更广泛的设备可访问性。
CdXz5zHNQW_8wndZAykAn.gif

通过差分隐私分区选择实现大规模私有数据安全

大型用户基于数据集对于AI进步、服务改进和个人化至关重要。分享这些数据集可以加速研究,但也存在隐私风险。差分隐私(DP)分区选择通过添加噪音来保护个人贡献,识别安全的公共数据子集。这对于词汇提取和私有数据分析等任务至关重要。处理大规模数据集需要并行算法,不仅是为了速度,还为了处理庞大的规模。我们的出版物《可扩展的私有分区选择通过自适应加权》引入了一种高效的并行算法用于DP分区选择。该算法可以扩展到数百亿个项目,远远超过之前的能力。我们的目标是最大化所选项目,同时保护用户隐私,优先考虑流行的数据。标准方法涉及加权、添加噪音和根据阈值过滤项目。我们的新型自适应加权算法MAD将流行项目的“过剩权重”重新分配给隐私阈值以下的项目。这提高了实用性,包括更多项目,而不牺牲隐私或可扩展性。实验表明,我们的两次迭代MAD算法实现了最新的结果,输出的项目比其他方法多,而具有相同的隐私保证。我们正在开源我们的算法,以促进社区创新。
CdXz5zHNQW_KfEjWw8vMV.png

超越数十亿参数的负担:解锁条件生成器的数据合成

生成大规模差分隐私合成文本数据面临隐私-计算-效用权衡。一种常见但计算成本高昂的方法是使用私有数据对大型语言模型进行微调。Aug-PE 等现有的基于 API 的方法依赖于手动提示,并且在利用私有信息方面存在困难。提出的 CTCL 框架可以在不微调大型语言模型或进行大量提示工程的情况下生成隐私保护的合成数据。它使用了一个轻量级的 1.4 亿参数模型,使其适用于资源受限的环境。CTCL 根据主题信息进行条件生成,以匹配私有数据分布。与 Aug-PE 不同,CTCL 可以生成无限数量的合成数据样本,而无需额外的隐私成本。实验表明,CTCL 的表现优于基线方法,特别是在强隐私保证下,证明了其在捕获有用信息方面的有效性。消融研究证实了预训练和基于关键词的条件对于 CTCL 的性能和可扩展性的重要性。CTCL 的核心思想可以扩展到更大的模型,以改进现实世界的应用。
CdXz5zHNQW_Z0zBIj4T6I.png

赋能以医生为中心的 AMIE 监督

我们的研究引入了守护rail-AMIE(g-AMIE),一种旨在医疗诊断中为医生提供监督的AI系统。g-AMIE可以通过对话收集患者信息,并生成摘要、差异诊断和管理计划。关键的是,它被约束以防止提供个性化的医疗建议。监督医生通过临床cockpit界面审查和编辑这些信息,然后与患者进行沟通。一个随机虚拟OSCE研究比较了g-AMIE的性能与护士从业者和医生助手/副手在类似约束下的性能。结果表明,g-AMIE的诊断性能和管理计划被监督者和独立评估者所青睐。患者演员也青睐g-AMIE草拟的患者信息。该研究突出了g-AMIE对安全护栏的遵守及其高质量的病史采集和SOAP笔记。虽然g-AMIE在多个指标上优于控制组,但工作流程是专门为AI设计的,而不是完全代表临床培训。限制包括潜在的评估者不一致和监督的认知负荷。未来的工作将集中于优化冗长度和探索真实世界设置。该框架标志着人类-AI协作在医疗诊断中的重要一步。
CdXz5zHNQW_SB8tCM3LeP.jpeg

InstructPipe:使用人类指令和大型语言模型生成视觉块管道

Visual Blocks是一个视觉编程框架,允许用户通过连接块来创建AI流水线。但是,新手用户可能会遇到从空白工作区设置和链接节点的困难。为了解决这个问题,作者引入了InstructPipe,一个使用文本指令生成机器学习流水线的AI助手。InstructPipe由三个模块组成:两个大型语言模型(LLM)模块和一个代码解释器。LLM模块生成目标流水线的伪代码,而解释器将流水线渲染到视觉编辑器中,以实现人工智能协作。作者使用两阶段LLM精炼提示策略和伪代码解释步骤来实现InstructPipe。用户可以使用自然语言描述所需的流水线,InstructPipe将自动生成对应的、可编辑的流水线。作者通过两天的混合研讨会和用户研究评估了InstructPipe,证明了InstructPipe可以让用户以明显降低的工作量创建AI流水线。InstructPipe赋予用户构建复杂工作流的能力,以降低工作量,实现快速想法原型设计,并大幅减少用户交互。作者希望InstructPipe能够成为未来研究的催化剂,推动人工智能协作的创新,并在机器学习和其他领域解锁新的表达和创造水平。
CdXz5zHNQW_ia2iw95e6O.png

教授机器生物学语言:扩展大型语言模型用于下一代单细胞分析

单细胞 RNA 序列测序(scRNA-seq)允许我们测量个体细胞的基因表达,但数据庞大且难以解释。为了克服这一点,研究人员开发了 Cell2Sentence-Scale(C2S-Scale),一系列大型语言模型,可以在单细胞水平上“读取”和“写入”生物数据。C2S-Scale 将每个细胞的基因表达-profile 转换为文本序列,称为“细胞句子”,使得可以将自然语言模型应用于 scRNA-seq 数据。这使得单细胞数据更加可访问、可解释和灵活。C2S-Scale 模型家族是在超过 10 亿个 token 的真实世界转录组数据集、生物元数据和科学文献上训练的。模型可以响应多样化的输入查询,以进行预测和生成任务,实现对话式单细胞分析。C2S-Scale 可以回答关于单细胞数据的问题,生成 scRNA-seq 数据的生物摘要,并预测细胞对扰动的响应。C2S-Scale 的性能随着模型大小的增加而可预测地改善,遵循明确的缩放法则。模拟细胞行为的能力加速了药物发现、个性化medicine 和实验优先级的确定。Cell2Sentence 模型和资源现在已经在 HuggingFace 和 GitHub 等平台上提供,允许研究人员探索和实验自己的单细胞数据。
CdXz5zHNQW_ydCgjtNBsI.png

地理空间推理:使用生成式AI和多基础模型解锁见解

谷歌已经组织了世界的地理空间信息数十年,通过各种产品如谷歌地图、街景和谷歌地球使其可访问。地理空间信息在日常情况和各种实际企业问题中都是必不可少的,包括公共卫生、城市发展和气候弹性。谷歌的数据、实时服务和AI模型可以加速分析和增强专有模型和数据。然而,地理空间信息可以是大、复杂和难以理解的,需要专门的传感器和平台。为了解决这些挑战,谷歌引入了两个预训练的多urpose模型:人口动态基础模型和新的基于轨迹的移动基础模型。这些模型已经被超过200个组织测试,谷歌正在扩展数据集以涵盖更多国家。谷歌还在探索如何使用生成式AI减少结合地理空间能力所需的成本、时间和领域专业知识。公司正在引入新的遥感基础模型以供实验和研究 effort称为地理空间推理,以将基础模型与生成式AI结合以加速地理空间问题解决。地理空间推理将提供快速、可靠的答案来回答复杂的自然语言查询,并且模型将通过可靠的测试者计划提供。遥感基础模型的初始测试者包括WPP、空客、Maxar和Planet Labs,它们计划使用这些模型来开创AI驱动的观众智能、从卫星图像中提取见解,并为客户简化和加速见解。