RSS Google 开发者博客 Note

Thread Of Notes

DiffusionGemma:开发者指南

DiffusionGemma 是一款基于 Gemma 4 架构构建的实验性文本生成模型,采用基于扩散的并行生成方式替代传统的逐词自回归方法,从而在保持可部署于消费级 GPU 的同时,实现更快的推理速度、双向上下文感知以及实时自我修正。其架构通过迭代去噪过程并行生成并优化 256 个 token 的块,使其在处理如数独等基于复杂约束的任务时,效果优于传统语言模型,并展现出微调带来的显著增益。该模型已集成至 vLLM 及其他主流推理框架,为开发者提供了一种兼具高性能、高效长上下文扩展能力以及易于定制与部署的新型非自回归方法。

介绍 Google Colab CLI

Google 发布了 Google Colab 命令行界面(CLI),这是一款新工具,允许开发者和 AI 代理将本地终端连接到远程 Colab 运行时,从而实现无摩擦执行。该轻量级 CLI 使用户能够轻松请求高性能 GPU、在远程运行本地 Python 脚本,并无缝获取工件日志或模型(如微调后的 Gemma 3 适配器)。通过将工具直接集成到标准终端环境中,其高度可编程,并可供 Antigravity 或 Claude Code 等 AI 代理使用,以管理复杂的机器学习流程。

Gemma 4 12B:开发者指南”

新发布的 Gemma 4 12B 是一款稠密的多模态模型,专为在消费级设备上实现高性能本地 AI 执行而设计。通过引入一种新颖的无编码器架构,它绕过了传统的视觉和音频编码器,直接将多模态数据输入到 LLM 主干网络中。

将 Gemma 4 12B 部署至您的笔记本电脑:借助 Google AI Edge 解锁本地代理工作流

Google DeepMind 的 Gemma 4 12B 模型将代理式、多模态 AI 能力带入配备 16GB 内存的日常笔记本电脑,支持本地数据处理与视觉洞察生成。用户可通过 Google AI Edge Gallery 在 macOS 上利用该模型,实现动态 Python 代码执行与可视化;也可通过 Google AI Edge Eloquent 实现完全离线的语音转写与文本编辑。此外,LiteRT-LM CLI 新增的 serve 命令增强了开发者工作流,可创建符合行业标准的本地端点,以驱动完全本地的 AI 工具与代理。

社区如何利用 Tunix 和 TPU 训练 Gemma 进行“思考”

Kaggle 举办的 Google Tunix 黑客松挑战开发者利用 Kaggle TPU 和有限的计算预算,将小型非推理基座模型转化为通用推理引擎。获胜团队通过实施多阶段后训练流程,将监督微调(SFT)与 GRPO、SimPO 等高级对齐技术相结合,实现了这一目标。最终,该竞赛通过证明高度 capable、结构化的推理模型可由社区利用可访问的开源资源成功训练,推动了人工智能开发的民主化。

使用 Google Pay 和钱包开发者 MCP 服务器,加速您的集成工作流。

Google 发布了新的 Google Pay & Wallet 开发者 MCP 服务器,这是一款基于开放标准的工具,旨在安全地将 AI 开发助手和 IDE 与实时 API 及账户上下文连接起来。该服务器允许开发者在开发环境中直接搜索官方文档、验证 Wallet 通行证定义、检查集成状态并管理商户账户。最终,此次集成旨在通过减少上下文切换并提供最新、基于事实的 AI 支持,降低摩擦并加速开发工作流。

Google Pay 的最新更新

Google Pay 正通过推出通用商业协议(Universal Commerce Protocol)及新的 MCP 服务器,向“代理型商业”(agentic commerce)演进,使 AI 代理能够管理集成并分析趋势。最新的 Android 更新引入了动态回调,以实现无缝的快捷结账,并将支付支持通过 WebViews 扩展至社交媒体应用。此外,该平台还将推出跨设备生物识别认证及新的交易信号,以帮助商家减少摩擦并优化处理成本。

借助 Gemini for Home 赋能服务提供商与硬件合作伙伴

Google 正通过推出全栈 Gemini AI 解决方案来扩展其智能家居生态系统,该方案集成了先进的摄像头智能、自然语言查询以及日常活动摘要。此举为服务提供商和硬件制造商提供了交钥匙参考设计和 API,使其无需大量研发工作即可构建主动式、品牌化的服务。最终,该计划旨在超越基础设备控制,迈向原生 AI 驱动的智能家居,使其能够理解上下文并实时响应用户需求。

一年创新:庆祝 Google Cloud x NVIDIA 开发者社区 10 万成员

Google Cloud 与 NVIDIA 开发者社区正在庆祝其成立一周年,目前拥有 100,000 名成员,并重新聚焦于为构建者提供先进的 AI 基础设施与资源。为加速开发进程,该社区提供精选的学习路径,助力掌握大语言模型(LLM)优化、GPU 加速数据分析以及每月由专家主讲的网络研讨会。进入第二年,该计划将扩展至包含动手实验、工程活动,以及专注于智能体(Agentic)AI 发展的专题内容。

来自 2026 年 Google I/O 开发者大会的所有新闻”

Google 宣布从辅助式 AI 向独立智能体转型,重点推出了 Gemini 3.5 系列,并大幅更新了其以智能体为先的 Antigravity 开发平台。针对移动开发者,该更新引入了新的 Android 命令行工具(CLI)、Android Bench 评估排行榜,以及一个自动化迁移智能体,可快速将各类框架转换为原生 Kotlin 代码。Web 开发领域也迎来变革:Chrome DevTools 现已支持智能体,推出了 HTML-in-Canvas API,并提出了 WebMCP 提案——这是一项开放 Web 标准,使基于浏览器的 AI 智能体能够执行复杂任务。

重要更新:将 Gemini CLI 迁移至 Antigravity CLI

Google 正通过将其面向社区的 Gemini CLI 过渡到 Antigravity CLI,来统一其 AI 终端工具。Antigravity CLI 是一个全新的以智能体为核心的平台,专为复杂的多智能体工作流而构建。这款基于 Go 的新工具提供更快的执行速度、异步处理能力,以及能够与 Antigravity 2.0 桌面应用程序同步的统一架构。虽然企业客户将保留现有的访问权限,但个人用户和免费用户必须在 2026 年 6 月 18 日 Gemini CLI 停止服务之前,迁移至新平台。

更智能的 Google AI Edge Gallery:MCP 集成、通知与会话连续性

Google AI Edge Gallery 应用通过在 Android 上引入对开源 Model Context Protocol(MCP)的实验性支持,扩展了其端侧 AI 能力,使 Gemma 4 能够协调跨外部数据源(如 Google Workspace 和 Google Maps)的复杂任务。为支持更主动且持久的用户交互,此次更新新增“定时通知”技能以自动化日常流程,并引入持久化聊天记录功能,可近乎即时恢复长会话上下文。该平台由开源工具包驱动,鼓励社区开发者通过其 GitHub 仓库构建和分享以实用工作流、提示配置及工具集成为重点的自定义功能。

基于 LiteRT-LM 的极速端侧生成式人工智能

Google AI Edge 的 LiteRT-LM 为在跨平台移动和边缘环境中运行 Gemma 4 提供了经过生产验证、高度优化的基础设施。它通过利用内存高效的动态加载、多令牌预测(可实现高达 2.2 倍的速度提升)以及先进的编排工具(如思考模式和受限解码),主动在设备上解锁模型的固有 multimodal(多模态)和 agentic(代理)功能。此外,该引擎正在迅速扩展其集成界面,超越 Android 平台,为 Apple 生态系统引入新的原生 Swift API,并为高性能无服务器浏览器推理提供基于 WebGPU 加速的 JavaScript API。

带有 LiteRT 的 Google Tensor SDK Beta

Google Tensor ML SDK 现已进入 Beta 阶段,使开发者能够直接在 Google Pixel 10 设备的 TPU 上构建和部署高性能机器学习模型。通过与 LiteRT(Google 的边缘部署框架)集成,该 SDK 为开发者提供了统一的工作流,可将 PyTorch 或 TFLite 模型进行转换、编译并运行,并具备健壮的降级选项。此外,新增的模型花园提供了超过 100 个经典和生成式 AI 模型,包括 Gemma 3,从而支持低延迟、私密的语音识别、计算机视觉和文本生成功能。

加速端侧 AI:Arm 与 Google AI Edge 优化探析

Arm 可扩展矩阵扩展 2(SME2)与 Google AI Edge 软件栈的集成,通过将 CPU 转化为强大的矩阵计算加速器,实现了高性能的端侧生成式 AI。以 Stability AI 的"stable-audio-open-small"模型为例,文章概述了一条简化的“转换、优化与部署”流水线,该流水线利用 LiteRT、XNNPACK 和 KleidiAI 实现硬件加速的自动化。最终实现方案在 Arm 驱动的移动设备和笔记本电脑上,在保持高音频质量的同时,将音频生成速度提升超过 2 倍,并将内存使用量降低 4 倍。

发布 Genkit 中间件:拦截、扩展并加固您的代理应用

Genkit 是一个开源框架,旨在帮助开发者使用 TypeScript、Go、Dart 和 Python 构建生产就绪的代理式 AI 应用。该框架利用强大的中间件系统拦截生成调用,以注入自定义行为,例如重试、模型降级和人工介入工具审批。通过在 generate、model 和 tool 层附加钩子,开发者可确保模型输出具备高可靠性并实现确定性控制。此外,Genkit 支持创建和堆叠自定义中间件,所有中间件均可通过专用的开发者 UI 进行查看和调试。

使用 ADK 构建可暂停、恢复且永不丢失上下文的长期运行 AI 智能体

如何从无状态聊天机器人过渡到能够管理长期企业工作流(如跨越数天或数周的 HR 入职流程)的生产级智能体。本文介绍了智能体开发套件(ADK)及其架构演进,特别是利用持久化状态机和持久会话存储,确保智能体在“空闲时段”或服务器重启期间不会丢失上下文。通过利用事件驱动的 Webhook 和多智能体委派,本教程展示了如何构建具有弹性的系统,使其在暂停期间“休眠”,并在需要时“唤醒”以高推理准确率继续执行复杂任务。

在 Google TPU 上加速大语言模型推理:通过扩散式推测解码实现 3 倍加速

UCSD 的研究人员成功将 DFlash 这一基于块扩散的推测解码方法部署于 Google TPU 上,以规避传统自回归草稿的串行瓶颈。该系统通过在单次前向传播中“绘制”整块候选 token,而非逐个预测,实现了平均 3.13 倍的速度提升,峰值性能几乎达到现有方法(如 EAGLE-3)的两倍。该开源集成方案融入 vLLM 生态系统,通过利用“免费”的并行验证与高质量的草稿预测,优化了 TPU 硬件在复杂推理任务中的表现。

使用 Gemini Embedding 2 构建:代理式多模态 RAG 及更广泛的应用

Google 已宣布 Gemini Embedding 2 正式可用,这是一个统一模型,可将文本、图像、视频、音频和文档映射到单一的语义空间。该模型允许开发者在单个请求中处理交错的多模态输入,显著提升了智能体 RAG、视觉搜索和内容审核等任务的性能。通过支持超过 100 种语言,并提供任务特定前缀和 Matryoshka 降维等功能,该模型为构建复杂 AI 智能体提供了高效且准确的基础。

加速人工智能:通过 GCSFS 和 Rapid Bucket 将 Google Colossus 引入 PyTorch

Google Cloud 推出了一种高性能集成方案,通过 fsspec 接口将 Rapid Storage 直接与 PyTorch 连接,从而消除 AI 训练瓶颈。该方案利用 Google 的 Colossus 架构和双向 gRPC 流式传输,提供高达 15 TiB/s 的聚合吞吐量,并显著降低延迟。这些改进使开发者在无需修改代码(仅需更新存储桶类型)的情况下,将总训练时间缩短 23%。

利用LiteRT和NPU构建真实世界的设备内AI。

LiteRT 是一个已具备生产就绪能力的框架,旨在帮助移动开发者释放神经网络处理器(NPU)的潜力,克服传统 CPU 或 GPU 处理在性能与功耗方面的局限。通过提供统一的应用程序接口(API)来屏蔽硬件复杂性,LiteRT 使 Google Meet 和 Epic Games 等行业领军企业能够以显著更高的效率部署复杂的 AI 模型,用于实时视频、动画和语音识别。该平台还通过基准测试工具和跨平台兼容性,支持开发者在移动设备、AI PC 及工业物联网硬件上实现无缝的 AI 部署。

Agent Platform 中的 Agents CLI:通过单一 CLI 实现从创建到生产环境的部署

Google Cloud 推出了 Agents CLI,这是一款专用工具,旨在弥合本地开发与生产级 AI 代理部署之间的差距。该 CLI 为代码助手提供对完整 Google Cloud 栈的可机器读取访问,从而在脚手架构建过程中减少上下文过载和 token 浪费。通过将评估、基础设施 provisioning 和部署整合到统一的程序化骨干中,该工具使开发者能够在数小时内从初始概念推进至上线服务,而无需数周时间。

生产就绪的 AI 智能体:重构单体架构的五大经验

该博客文章概述了如何将一个脆弱的销售研究原型,借助谷歌的 Agent 开发套件(ADK)转化为稳健的生产级智能体。通过以编排的子智能体和结构化的 Pydantic 输出替代单体脚本,开发人员消除了静默故障和脆弱的解析问题。此外,文章还强调了动态检索增强生成(RAG)管道和 OpenTelemetry 可观测性的必要性,以确保 AI 智能体在实际应用中具备可扩展性、成本效益和透明度。

A2UI v0.9:便携式、与框架无关的生成式用户界面的新标准”

A2UI v0.9 推出了一种与框架无关的标准,旨在帮助 AI 代理利用企业现有的设计系统生成实时、定制化的 UI 组件。此次更新通过引入新的 Python Agent SDK、共享 Web 核心库,以及对 React、Flutter 和 Angular 等渲染器的官方支持,简化了开发体验。通过将 UI 意图与具体平台解耦,该版本实现了跨 Web 和移动应用的生成式界面无缝、低延迟流式传输。通过与 AG2 和 Vercel 等更广泛的生态系统集成,A2UI v0.9 致力于推动生成式 UI 从实验性演示迈向可投入生产的数字产品。”

MaxText 扩展了后训练能力:在单台主机 TPU 上引入监督微调(SFT)和强化学习(RL)

MaxText 现已为单主机 TPU 配置新增了对监督微调(SFT)和强化学习(RL)的支持,借助 JAX 和 Tunix 库实现高性能模型优化。这些功能使开发者能够利用 GRPO 和 GSPO 等高效算法,轻松将预训练模型适配至特定任务与复杂推理场景。此次更新简化了后训练流程,提供了从单主机部署扩展至更大规模多主机配置的可行路径。

Google Pay API 中针对商户发起的交易新增的功能增强

Google 已对 Google Pay API 进行升级,为开发者提供更大的灵活性,以更好地控制商户发起的交易(MIT)。此次更新在 PaymentDataRequest 中新增了专用对象,用于处理 recurring 订阅、延迟支付(如酒店预订)以及自动账户充值等场景。通过允许商户明确定义未来的支付条款,这些改进提升了用户的透明度,并借助更优的令牌管理降低了交易失败率。开发者如今可利用这些功能,构建更加流畅且安全的长期支付体验。

子代理已接入 Gemini CLI

Gemini CLI 现已推出子代理(subagents),即专注于处理复杂或高负载任务的专家型代理。这些代理在隔离的上下文窗口中运行,以保持主会话的快速与专注。它们可通过 Markdown 文件进行自定义,支持并行运行以提升生产力,并可通过 `@agent` 语法轻松调用,实现精准的任务委派。该架构通过将复杂的 multi-step 执行过程整合为简洁的摘要反馈给主协调器,从而有效防止“上下文腐烂”(context rot)问题。

准备好迎接 Google I/O:直播日程表已公布

Google I/O 将于 5 月 19 日至 20 日回归,重点展示人工智能、Android、Chrome 和云领域的重大更新,首场主题演讲将聚焦于“代理时代”的开发范式。本次活动将围绕旨在自动化复杂工作流、简化高质量 AI 就绪型应用构建的新工具展开。参会者可注册参与现场直播、技术演示以及线上线下均可访问的专业开发资源。

构建更优的 AI 智能体:来自智能体烘焙大赛的五位开发者建议

Google Cloud AI Agent Bake-Off 凸显了从简单的提示工程向严谨的智能体工程的转变,强调生产就绪型 AI 需要采用模块化、多智能体架构。该文章提出了五项关键开发者建议,包括将复杂任务分解为专用子智能体,并使用确定性代码执行以避免概率性错误。此外,文章建议开发者优先支持多模态能力,并采用如 MCP 等开源协议,以确保智能体具备可扩展性、可集成性,并能适应模型能力快速演进的未来需求。

隆重推出 EmbeddingGemma:同类最佳的设备端嵌入开源模型

隆重推出 EmbeddingGemma:谷歌专为高效的设备端 AI 应用设计的新款嵌入模型。这款开源模型在 MTEB 基准测试中,是 5 亿以下参数中排名最高的纯文本多语言嵌入模型,能够直接在移动设备上实现强大的功能,例如 RAG 和语义搜索,无需互联网连接。

如何最好地提示 Gemini 2.5 Flash 进行图像生成

以下是使用 Google 最新发布的 Gemini 2.5 Flash Image 的详细提示技术和最佳实践,适用于各种应用,包括照片级写实场景、风格化插画、产品模型等。Gemini 2.5 Flash Image 是一个原生多模态模型,能够使用文本生成、编辑和组合图像,支持文本到图像、图像编辑、风格迁移和多图像组合等功能。

超越终端:Gemini CLI 登陆 Zed

Google 与 Zed 合作,将 Gemini CLI 直接集成到 Zed 代码编辑器中,为开发者带来编辑器内的 AI 功能,实现更快速、更集中的编码,能够进行就地代码生成、即时问答,以及在终端中进行自然语言聊天,并为 AI 生成的更改提供无缝审查工作流程。

别再“凭感觉”测试你的大型语言模型了,是时候进行真正的评估了。

Stax 是一款实验性的开发者工具,它通过简化 LLM 评估生命周期,让用户能够严格测试其 AI 堆栈,并通过人工标注和可扩展的“LLM 作为裁判”的自动评分器做出数据驱动的决策,从而解决了“氛围测试” LLM 不足的问题。

Gemini Code Assist 的新功能

Gemini Code Assist 的 Agent 模式现已在 VS Code (预览版) 和 IntelliJ (稳定版) 中推出,它通过提出详细的计划供用户审查和批准,从而简化复杂的编码任务。这种智能、协作的方法,结合了内联差异和持久聊天记录等功能,旨在提高开发者的生产力和效率。

宣布 Imagen 4 Fast 以及 Gemini API 中 Imagen 4 系列的普遍可用性

Google 宣布其先进的文本到图像模型 Imagen 4 已在 Gemini API 和 Google AI Studio 中全面上市,该模型在文本渲染方面有了显著的改进。全新的 Imagen 4 Fast 模型专为速度和快速图像生成而设计,现已与 Imagen 4 和 Imagen 4 Ultra 一同提供,同时 Imagen 4 和 Imagen 4 Ultra 还支持高达 2K 分辨率的图像生成。

认识一下朱尔斯最尖锐的批评者和最有价值的盟友。

Jules 的评论功能通过充当生成过程中的同行评审员,解决了 AI 生成代码中潜在的问题,例如细微的错误和遗漏的边缘情况。这种“增强评论的生成”意味着提议的代码更改会经过对抗性审查,从而使 Jules 能够改进其输出,并最终交付更高质量、经过预先审查的代码。

开始使用Gemini 2.5闪存构建

双子星2.5闪存处于预览阶段,通过可控的“思考”过程提供了改进的推理能力,以便开发者在成本和延迟之间进行权衡。该更新版本旨在为复杂任务提供一种成本-effective解决方案,平衡性能和价格。

Gemini 2.5 Flash 和 Pro,实时 API,以及 Gemini API 中的 Veo 2

对 Gemini API 的更新,包括 Veo 2 视频生成技术的生产就绪、实时互动 Live API 的预览,以及即将推出的 Gemini 2.5 Flash 模型,与现有的 Gemini 2.5 Pro 一起,旨在通过改进的思维模型、动态互动和高质量视频生成,增强开发者构建 AI 应用的能力。