Google Developers Blog 中文 - TheNote.app

Google Developers Blog 中文
关注

developers.googleblog.com是Google开发者官方博客。这里，他们提供了关于各种开发者工具及其功能、bug修复和提高开发技能的教程。博客还发布了与Google软件开发项目相关的案例研究、采访和社区新闻。

RSS developers.googleblog.com

Google Developers Blog developers.googleblog.com

RSS Hunter • 2024年8月23日

笔记线程

在 TPU 上运行 Ray（第二部分）：Ray AI 库

本第二部分探讨了 Ray 的高级库——Serve、Data 和 Train——如何抽象在 Google TPU 切片上运行 AI 工作负载的复杂性。Ray Serve 使用简单的拓扑配置来正确地对大型多主机模型进行联合调度，而 Ray Data 通过以原生 JAX 批次直接为加速器提供数据来消除数据加载瓶颈。最后，JaxTrainer 通过自动处理跨切片协调、检查点保存和容错，简化了跨 TPU 的分布式训练。

Run Ray on TPU, Part 2: Ray AI libraries developers.googleblog.com

RSS Hunter • 7月24日

Scaling Agentic RL：基于 Tunix 的高吞吐量智能体训练

Tunix 是 Google 推出的原生 JAX 后训练库，旨在消除训练多轮、使用工具的 LLM 推理代理时的 TPU 空闲瓶颈。它通过将高度并发、异步的 rollout 与解耦的 producer-consumer 流水线相结合，最大化硬件吞吐量，确保即使在代理等待网络 I/O 或环境步骤时，训练器也能持续获得数据。此外，Tunix 提供即插即用的抽象和持续的宏观级性能分析，使开发者能够轻松集成自定义开源环境，并对复杂的分布式工作流进行优化，而无需进行大规模代码重构。

Scaling Agentic RL: High-Throughput Agentic Training with Tunix developers.googleblog.com

RSS Hunter • 7月21日

在 TPU 上运行 Ray，第 1 部分：基础知识

Ray 2.55 正式引入对 Google Cloud TPU 的一等公民支持，使开发者能够使用熟悉的 Ray 任务与 Actor API 在 Google 加速器上运行分布式 Python 工作负载。为满足在多主机 TPU“切片”通过片间互连（Inter-Chip Interconnect, ICI）保持连接所需的严格网络要求，GKE 上的 KubeRay Operator 会自动配置并标记底层硬件布局。Ray Core 利用这些标记，通过其 slice_placement_group() 原语原子性地预留完整切片，使开发者只需声明硬件拓扑（如"4x4"），即可通过 KubeRay、Ray Train 或 Ray Serve 部署作业，而无需编写自定义放置代码。

Run Ray on TPU, Part 1: The foundations developers.googleblog.com

RSS Hunter • 7月20日

使用模块化提示词转译构建可扩展的 AI 智能体

为了解决由单体系统提示词引发的扩展瓶颈和运行时错误，工程团队应将提示词视为构建产物，通过将指令模块化为可重用的模板来处理。通过运行这些模块化的“技能文件”经过转译器，开发人员可以在构建阶段实施静态验证，捕获缺失的依赖项，并将提示词生成直接集成到 CI/CD 流水线中。这种确定性方法可防止代码漂移，并最终建立一个安全框架，使智能体能够通过标准拉取请求（pull requests）提出对其自身逻辑的更新。

Building scalable AI agents with modular prompt transpilation developers.googleblog.com

RSS Hunter • 7月16日

演进中的规范驱动开发：Conductor 现已支持反重力

Conductor 已从 Gemini CLI 扩展演变为一个可移植插件，将对话式规范驱动开发（SDD）引入 Antigravity CLI 和 Claude 等生态系统。开发者不再依赖严格的命令序列，而是可以自然地与 AI 助手对话，同时该助手在后台动态管理持久化的 Markdown 工件（如 spec.md 和 plan.md）。此次更新消除了工作流摩擦，并确保您的仓库在不同 AI 工具间始终作为项目架构和状态的版本控制单一事实来源。

Evolving Spec-Driven Development: Conductor Now Supports Antigravity developers.googleblog.com

RSS Hunter • 7月16日

扩展 Gemini 企业代理平台的选择：引入基于并行网络搜索的 grounding

Google Cloud 已与 Parallel Web Systems 合作，将 Parallel 的搜索基础设施原生集成至 Gemini 企业代理平台，作为网络 grounding 提供商。此次集成使开发者能够将 AI 代理锚定于可验证的实时网络结果，显著提升复杂企业工作流的事实准确性。此外，该合作还提供了更广泛的架构灵活性，允许用户与其他大型语言模型协同，对网络数据进行程序化提取、永久缓存及处理。

Expanding Choice in Gemini Enterprise Agent Platform: Introducing Grounding with Parallel Web Search developers.googleblog.com

RSS Hunter • 7月16日

系统工程手册：在 Ironwood（TPU7x）上优化 Qwen 3.5-397B MoE

为在 Ironwood TPU 上部署 397B 参数的 Qwen 3.5 混合专家（MoE）模型，工程师开发了一套模块化 JAX/Pallas 优化栈，在预填充密集型工作负载下实现了高达 4.7 倍的推理加速。团队通过部署混合数据并行与专家并行（DP+EP）拓扑，并配合自定义的低层通信融合（如分层 reduce-scatter），有效规避了严重的硬件分片限制，从而优化了跨设备 token 路由。最终，通过执行硬件感知的自定义内核——包括 Batched Ragged Page Attention 和完全融合的 Gated DeltaNet（GDN）块——成功饱和了 HBM 带宽和 TensorCore MXU，将系统吞吐量推近其理论 Roofline 极限。

Systems Engineering Playbook: Optimizing Qwen 3.5-397B MoE on Ironwood (TPU7x) developers.googleblog.com

RSS Hunter • 7月14日

借助 Google Tensor 与 Pixel 开启端侧 AI 新时代

在 Google I/O Connect India 上，Google 展示了由定制 Tensor SoC 和 TPU 驱动的 100% 私有、端侧 AI 的未来，该 AI 将赋能全新的 Pixel 10 系列。本次活动首次推出了轻量级 Gemma 4 E2B 模型，该模型可原生运行于设备上，从而支持完全离线的多模态功能，包括 AI 对话、实时图像识别及个人代理任务。开发者如今即可通过访问新发布的 Tensor SDK beta 及其配套开源资源，开始构建这些安全、基于边缘的应用。

Unlocking the Next Era of On-Device AI with Google Tensor and Pixel developers.googleblog.com

RSS Hunter • 7月14日

LiteRT.js，Google 的高性能 Web AI 推理引擎

我们很高兴推出 LiteRT.js，这是 LiteRT 家族的最新成员！LiteRT.js 是我们强大的解决方案，可在浏览器中直接运行机器学习模型，将 Google 的跨平台边缘 AI 运行时扩展至 Web 领域。专为 JavaScript 开发者打造，LiteRT.js 在 WebGPU 和即将推出的 WebNN 上提供最先进的机器学习模型推理性能，并支持回退至 WebAssembly 以在 CPU 上运行。本文将对 LiteRT.js 进行快速概览，并为 Web 开发者提供一切所需，助其快速上手。

LiteRT.js, Google's high performance Web AI Inference developers.googleblog.com

RSS Hunter • 7月9日

弥合领域差距：使用 Antigravity 和 Gemini 构建的 AI 赛车教练

2026 年 5 月 23 日，刚从 Google I/O 大会舞台走下，我们的 Google 开发者专家（GDEs）齐聚……

Bridging the Domain Gap: AI Race Coach built with Antigravity and Gemini developers.googleblog.com

RSS Hunter • 7月8日

我们在训练中途终止了 TPU，并在数秒内恢复：MaxText 弹性训练简介

分布式 AI 训练以脆弱著称，因为单个机器的故障通常会导致整个多节点任务崩溃，迫使进行耗时且完整的负载基础设施重启。为解决这一问题，Google 的 JAX 生态系统通过 Pathways 实现弹性训练，将硬件故障转化为可捕获的 Python 异常，从而使运行进程得以存活。当发生非计划故障时，系统会自动替换故障的 worker，从 Cloud Storage 恢复最后一个可用的检查点，并在原地继续训练——将总停机时间最小化至两分钟以内，且无需重启主控制器进程。

We terminated a TPU mid-training and it recovered in seconds: Introduction to elastic training with MaxText developers.googleblog.com

RSS Hunter • 7月6日

在 VS Code 中使用 Google Cloud Power 进行机器学习开发：工作区扩展现已推出

Google Cloud Workbench Notebooks 扩展现已正式推出，使开发者能够将本地 IDE 连接到可扩展的云原生 Jupyter 环境。该集成通过消除上下文切换并提供对高性能 Google Cloud 基础设施的直接访问，简化了机器学习生命周期。为支持透明度和社区驱动的创新，新发布的扩展已完全开源，可在 GitHub 和 VS Code Marketplace 上获取。

ML Development in VS Code with Google Cloud Power: Workbench Extension Now Available developers.googleblog.com

RSS Hunter • 7月1日

使用 Genkit 构建基于 Agent 的全栈应用

开源 Genkit 框架推出了 Agents API，这是一个全栈工具，旨在通过封装消息历史、工具循环和流式传输，简化对话 AI 的复杂底层架构。该 API 支持灵活的服务端或客户端管理状态持久化，从而支持高级工作流，如历史分支、长运行分离任务和多智能体协调，同时通过统一的传输协议无缝连接后端与前端。目前该 API 以预览形式提供 TypeScript 和 Go 支持，并集成 Genkit 开发者 UI，使开发人员无需编写客户端代码即可轻松测试、调试和检查智能体快照。

Build agentic full-stack apps with Genkit developers.googleblog.com

RSS Hunter • 7月1日

我们为何开发 ADK 2.0

解答“为何构建 ADK 2.0"这一系列问题。本文阐述了其设计原理、部分功能特性，以及开发者为何应考虑升级。该内容将于 ADK 2.0 正式发布后的次日发布。

Why we built ADK 2.0 developers.googleblog.com

RSS Hunter • 7月1日

使用 ADK Go 2.0 构建可靠的多智能体应用。探索我们全新的基于图的工作流引擎、内置的人工介入机制以及动态编排功能。

Go 2.0 的 Agent 开发套件（ADK）已发布，引入了原生图工作流引擎，助力开发者构建复杂的多智能体应用。此次更新增加了用于人机协同（HITL）编排的原生原语、基于纯 Go 代码的动态执行能力，以及指数退避重试等自动化弹性特性。通过统一执行模型，单智能体应用与复杂图结构如今可在同一运行时上运行，从而简化遥测与状态持久化。

Build reliable multi-agent applications with ADK Go 2.0. Discover our new graph-based workflow engine, built-in human-in-the-loop, and dynamic orchestration developers.googleblog.com

RSS Hunter • 6月30日

从您的编码智能体驱动智能体质量飞轮

构建 AI 智能体时，开发者常不确定对提示词（prompt）的局部调整以修复单个错误，是否会意外导致生产环境中的广泛回归。为弥合这一差距，Google 推出了一项面向编码智能体的新开发者技能，该技能自动化了一个五阶段评估飞轮：准备数据、运行推理、使用自适应 AutoRaters 进行评分、分析失败聚类，并执行针对性优化。该工具可针对生产流量持续运行，或通过合成场景按需运行，允许开发者用自然语言描述测试目标，同时由独立的评估服务安全地验证并统计实际性能提升。

Driving the Agent Quality Flywheel from Your Coding Agent developers.googleblog.com

RSS Hunter • 6月30日

与朱尔斯一起衡量重要性

AI 编程代理正迅速从被动助手转变为……

Measuring What Matters with Jules developers.googleblog.com

RSS Hunter • 6月22日

使用 Google 的 Agent 开发套件和 A2A 构建跨语言多智能体团队

Python 代理与 Go 代理如何利用 Agent2Agent 协议协作进行合同合规性检查...

Build Cross-Language Multi-Agent Team with Google’s Agent Development Kit and A2A developers.googleblog.com

RSS Hunter • 6月22日

A2A 如何构建协作智能体世界”

庆祝 Agent-to-Agent（A2A）协议一周年，本文阐述了该框架如何使自主 AI 代理在无需传统 API 僵化约束的情况下安全协作并移交任务。通过将复杂工作流委托给专业对等代理，A2A 避免了上下文污染，保障了数据隐私，并通过模块化简化了应用设计。为展示该生态系统的实际运作，本文重点介绍了 FoldRun——一个面向生命科学的代理接口，用于编排复杂的蛋白质结构预测——以及涵盖商业、数据流、DevOps 和电信领域的多样化 A2A 用例。

How A2A is Building a World of Collaborative Agents developers.googleblog.com

RSS Hunter • 6月18日

发布代理资源发现规范

一种用于在网络上查找和验证工具、技能及智能体的开放规范。智能体是……

Announcing the Agentic Resource Discovery specification developers.googleblog.com

RSS Hunter • 6月17日

A2UI + MCP 应用：结合声明式与自定义代理 UI 的最佳实践”

本文介绍了三种架构模式，旨在将模型上下文协议（MCP）应用与代理到用户界面（A2UI）相结合，以解决高度定制的 iframe 环境与原生声明式渲染之间的权衡问题。通过结合这些方法，开发者可以直接通过 MCP 服务器提供具有原生体验的 UI，在声明式视图中安全地嵌入复杂且具备状态管理的 iframe 应用，或将生成式 UI 组件注入遗留系统。最终，这些混合框架赋能工程团队交付安全、高性能且品牌一致的智能体用户体验，并可根据具体项目约束进行定制。

A2UI + MCP Apps: Combining the best of declarative and custom agentic UIs developers.googleblog.com

RSS Hunter • 6月17日

增强安全与信任：Google 登录中的新会话元数据

Google 正在增强“使用 Google 登录”功能，通过引入新的 OIDC 标准声明——特别是 auth_time 和 amr（认证方法参考），为开发者提供更深入的会话元数据。这些更新使已验证的应用能够验证用户登录的“新鲜度”以及所使用的具体认证方法（例如多因素认证或硬件密钥），从而实现更动态、基于风险的访问控制。通过利用这些联邦身份信号，平台可以更有效地防止账户接管和欺诈，同时实施细粒度的安全策略，例如对敏感操作执行升级认证。

Enhance Security and Trust: New Session Metadata in Sign in with Google developers.googleblog.com

RSS Hunter • 6月16日

释放 TPU 栈的潜能：推出我们的新开发者中心

Google 正式推出 TPU 开发者中心，这是一个集成的教育资源，旨在帮助模型构建者和开发者最大化 Google Cloud TPU 的性能。该中心提供以代码为核心的资源、开源示例以及深入的技术文档，涵盖硬件架构、软件优化、调试、并行性和网络等方面。这些材料专为人类开发者和 AI 辅助工具量身定制，以简化从大规模训练到低延迟推理工作负载的全流程。

Unlocking the Power of the TPU Stack: Introducing our new Developer Hub developers.googleblog.com

RSS Hunter • 6月16日

DiffusionGemma：开发者指南

DiffusionGemma 是一款基于 Gemma 4 架构构建的实验性文本生成模型，采用基于扩散的并行生成方式替代传统的逐词自回归方法，从而在保持可部署于消费级 GPU 的同时，实现更快的推理速度、双向上下文感知以及实时自我修正。其架构通过迭代去噪过程并行生成并优化 256 个 token 的块，使其在处理如数独等基于复杂约束的任务时，效果优于传统语言模型，并展现出微调带来的显著增益。该模型已集成至 vLLM 及其他主流推理框架，为开发者提供了一种兼具高性能、高效长上下文扩展能力以及易于定制与部署的新型非自回归方法。

DiffusionGemma: The Developer Guide developers.googleblog.com

RSS Hunter • 6月10日

介绍 Google Colab CLI

Google 发布了 Google Colab 命令行界面（CLI），这是一款新工具，允许开发者和 AI 代理将本地终端连接到远程 Colab 运行时，从而实现无摩擦执行。该轻量级 CLI 使用户能够轻松请求高性能 GPU、在远程运行本地 Python 脚本，并无缝获取工件日志或模型（如微调后的 Gemma 3 适配器）。通过将工具直接集成到标准终端环境中，其高度可编程，并可供 Antigravity 或 Claude Code 等 AI 代理使用，以管理复杂的机器学习流程。

Introducing the Google Colab CLI developers.googleblog.com

RSS Hunter • 6月5日

将 Gemma 4 12B 部署至您的笔记本电脑：借助 Google AI Edge 解锁本地代理工作流

Google DeepMind 的 Gemma 4 12B 模型将代理式、多模态 AI 能力带入配备 16GB 内存的日常笔记本电脑，支持本地数据处理与视觉洞察生成。用户可通过 Google AI Edge Gallery 在 macOS 上利用该模型，实现动态 Python 代码执行与可视化；也可通过 Google AI Edge Eloquent 实现完全离线的语音转写与文本编辑。此外，LiteRT-LM CLI 新增的 serve 命令增强了开发者工作流，可创建符合行业标准的本地端点，以驱动完全本地的 AI 工具与代理。

Bringing Gemma 4 12B to your Laptop: Unlocking Local, Agentic Workflows with Google AI Edge developers.googleblog.com

RSS Hunter • 6月3日

Gemma 4 12B：开发者指南”

新发布的 Gemma 4 12B 是一款稠密的多模态模型，专为在消费级设备上实现高性能本地 AI 执行而设计。通过引入一种新颖的无编码器架构，它绕过了传统的视觉和音频编码器，直接将多模态数据输入到 LLM 主干网络中。

Gemma 4 12B: The Developer Guide developers.googleblog.com

RSS Hunter • 6月3日

使用 Google Pay 和钱包开发者 MCP 服务器，加速您的集成工作流。

Google 发布了新的 Google Pay & Wallet 开发者 MCP 服务器，这是一款基于开放标准的工具，旨在安全地将 AI 开发助手和 IDE 与实时 API 及账户上下文连接起来。该服务器允许开发者在开发环境中直接搜索官方文档、验证 Wallet 通行证定义、检查集成状态并管理商户账户。最终，此次集成旨在通过减少上下文切换并提供最新、基于事实的 AI 支持，降低摩擦并加速开发工作流。

Supercharge your integration workflow with the Google Pay & Wallet Developer MCP server developers.googleblog.com

RSS Hunter • 5月28日

社区如何利用 Tunix 和 TPU 训练 Gemma 进行“思考”

Kaggle 举办的 Google Tunix 黑客松挑战开发者利用 Kaggle TPU 和有限的计算预算，将小型非推理基座模型转化为通用推理引擎。获胜团队通过实施多阶段后训练流程，将监督微调（SFT）与 GRPO、SimPO 等高级对齐技术相结合，实现了这一目标。最终，该竞赛通过证明高度 capable、结构化的推理模型可由社区利用可访问的开源资源成功训练，推动了人工智能开发的民主化。

How the community trained Gemma to "Think" with Tunix and TPUs developers.googleblog.com

RSS Hunter • 5月28日

Google Pay 的最新更新

Google Pay 正通过推出通用商业协议（Universal Commerce Protocol）及新的 MCP 服务器，向“代理型商业”（agentic commerce）演进，使 AI 代理能够管理集成并分析趋势。最新的 Android 更新引入了动态回调，以实现无缝的快捷结账，并将支付支持通过 WebViews 扩展至社交媒体应用。此外，该平台还将推出跨设备生物识别认证及新的交易信号，以帮助商家减少摩擦并优化处理成本。

The latest updates to Google Pay developers.googleblog.com

RSS Hunter • 5月27日

使用 Google Pay 动态回调增强 Android 结账流程

我们很高兴为 Android 原生应用引入带有 Google Pay 的 Express 结账功能，使开发者能够……

Enhancing Android Checkout with Dynamic Callbacks in Google Pay developers.googleblog.com

RSS Hunter • 5月26日

借助 Gemini for Home 赋能服务提供商与硬件合作伙伴

Google 正通过推出全栈 Gemini AI 解决方案来扩展其智能家居生态系统，该方案集成了先进的摄像头智能、自然语言查询以及日常活动摘要。此举为服务提供商和硬件制造商提供了交钥匙参考设计和 API，使其无需大量研发工作即可构建主动式、品牌化的服务。最终，该计划旨在超越基础设备控制，迈向原生 AI 驱动的智能家居，使其能够理解上下文并实时响应用户需求。

Empowering Service Providers and Hardware Partners with Gemini for Home developers.googleblog.com

RSS Hunter • 5月21日

发布 Kotlin ADK 和 Android ADK 0.1.0：在 Android 及更广泛的平台上构建 AI 智能体

Kotlin ADK 将代理工作流引入您的后端项目，而 Android ADK 则提供...

Announcing ADK for Kotlin and ADK for Android 0.1.0: Building AI Agents on Android and Beyond developers.googleblog.com

RSS Hunter • 5月21日

一年创新：庆祝 Google Cloud x NVIDIA 开发者社区 10 万成员

Google Cloud 与 NVIDIA 开发者社区正在庆祝其成立一周年，目前拥有 100,000 名成员，并重新聚焦于为构建者提供先进的 AI 基础设施与资源。为加速开发进程，该社区提供精选的学习路径，助力掌握大语言模型（LLM）优化、GPU 加速数据分析以及每月由专家主讲的网络研讨会。进入第二年，该计划将扩展至包含动手实验、工程活动，以及专注于智能体（Agentic）AI 发展的专题内容。

One Year of Innovation: Celebrating 100k Members in the Google Cloud x NVIDIA Developer Community developers.googleblog.com

RSS Hunter • 5月20日

来自 2026 年 Google I/O 开发者大会的所有新闻”

Google 宣布从辅助式 AI 向独立智能体转型，重点推出了 Gemini 3.5 系列，并大幅更新了其以智能体为先的 Antigravity 开发平台。针对移动开发者，该更新引入了新的 Android 命令行工具（CLI）、Android Bench 评估排行榜，以及一个自动化迁移智能体，可快速将各类框架转换为原生 Kotlin 代码。Web 开发领域也迎来变革：Chrome DevTools 现已支持智能体，推出了 HTML-in-Canvas API，并提出了 WebMCP 提案——这是一项开放 Web 标准，使基于浏览器的 AI 智能体能够执行复杂任务。

All the news from the Google I/O 2026 Developer keynote developers.googleblog.com

RSS Hunter • 5月20日

基于 LiteRT-LM 的极速端侧生成式人工智能

Google AI Edge 的 LiteRT-LM 为在跨平台移动和边缘环境中运行 Gemma 4 提供了经过生产验证、高度优化的基础设施。它通过利用内存高效的动态加载、多令牌预测（可实现高达 2.2 倍的速度提升）以及先进的编排工具（如思考模式和受限解码），主动在设备上解锁模型的固有 multimodal（多模态）和 agentic（代理）功能。此外，该引擎正在迅速扩展其集成界面，超越 Android 平台，为 Apple 生态系统引入新的原生 Swift API，并为高性能无服务器浏览器推理提供基于 WebGPU 加速的 JavaScript API。

Blazing fast on-device GenAI with LiteRT-LM developers.googleblog.com

RSS Hunter • 5月19日

重要更新：将 Gemini CLI 迁移至 Antigravity CLI

Google 正通过将其面向社区的 Gemini CLI 过渡到 Antigravity CLI，来统一其 AI 终端工具。Antigravity CLI 是一个全新的以智能体为核心的平台，专为复杂的多智能体工作流而构建。这款基于 Go 的新工具提供更快的执行速度、异步处理能力，以及能够与 Antigravity 2.0 桌面应用程序同步的统一架构。虽然企业客户将保留现有的访问权限，但个人用户和免费用户必须在 2026 年 6 月 18 日 Gemini CLI 停止服务之前，迁移至新平台。

An important update: Transitioning Gemini CLI to Antigravity CLI developers.googleblog.com

RSS Hunter • 5月19日

更智能的 Google AI Edge Gallery：MCP 集成、通知与会话连续性

Google AI Edge Gallery 应用通过在 Android 上引入对开源 Model Context Protocol（MCP）的实验性支持，扩展了其端侧 AI 能力，使 Gemma 4 能够协调跨外部数据源（如 Google Workspace 和 Google Maps）的复杂任务。为支持更主动且持久的用户交互，此次更新新增“定时通知”技能以自动化日常流程，并引入持久化聊天记录功能，可近乎即时恢复长会话上下文。该平台由开源工具包驱动，鼓励社区开发者通过其 GitHub 仓库构建和分享以实用工作流、提示配置及工具集成为重点的自定义功能。

A Smarter Google AI Edge Gallery: MCP integration, notifications, and session continuity developers.googleblog.com

RSS Hunter • 5月19日

带有 LiteRT 的 Google Tensor SDK Beta

Google Tensor ML SDK 现已进入 Beta 阶段，使开发者能够直接在 Google Pixel 10 设备的 TPU 上构建和部署高性能机器学习模型。通过与 LiteRT（Google 的边缘部署框架）集成，该 SDK 为开发者提供了统一的工作流，可将 PyTorch 或 TFLite 模型进行转换、编译并运行，并具备健壮的降级选项。此外，新增的模型花园提供了超过 100 个经典和生成式 AI 模型，包括 Gemma 3，从而支持低延迟、私密的语音识别、计算机视觉和文本生成功能。

Google Tensor SDK Beta with LiteRT developers.googleblog.com

RSS Hunter • 5月19日

加速端侧 AI：Arm 与 Google AI Edge 优化探析

Arm 可扩展矩阵扩展 2（SME2）与 Google AI Edge 软件栈的集成，通过将 CPU 转化为强大的矩阵计算加速器，实现了高性能的端侧生成式 AI。以 Stability AI 的"stable-audio-open-small"模型为例，文章概述了一条简化的“转换、优化与部署”流水线，该流水线利用 LiteRT、XNNPACK 和 KleidiAI 实现硬件加速的自动化。最终实现方案在 Arm 驱动的移动设备和笔记本电脑上，在保持高音频质量的同时，将音频生成速度提升超过 2 倍，并将内存使用量降低 4 倍。

Accelerating on-device AI: A look at Arm and Google AI Edge optimization developers.googleblog.com

RSS Hunter • 5月14日

发布 Genkit 中间件：拦截、扩展并加固您的代理应用

Genkit 是一个开源框架，旨在帮助开发者使用 TypeScript、Go、Dart 和 Python 构建生产就绪的代理式 AI 应用。该框架利用强大的中间件系统拦截生成调用，以注入自定义行为，例如重试、模型降级和人工介入工具审批。通过在 generate、model 和 tool 层附加钩子，开发者可确保模型输出具备高可靠性并实现确定性控制。此外，Genkit 支持创建和堆叠自定义中间件，所有中间件均可通过专用的开发者 UI 进行查看和调试。

Announcing Genkit Middleware: Intercept, extend, and harden your agentic apps developers.googleblog.com

RSS Hunter • 5月14日

使用 ADK 构建可暂停、恢复且永不丢失上下文的长期运行 AI 智能体

如何从无状态聊天机器人过渡到能够管理长期企业工作流（如跨越数天或数周的 HR 入职流程）的生产级智能体。本文介绍了智能体开发套件（ADK）及其架构演进，特别是利用持久化状态机和持久会话存储，确保智能体在“空闲时段”或服务器重启期间不会丢失上下文。通过利用事件驱动的 Webhook 和多智能体委派，本教程展示了如何构建具有弹性的系统，使其在暂停期间“休眠”，并在需要时“唤醒”以高推理准确率继续执行复杂任务。

Build Long-running AI agents that pause, resume, and never lose context with ADK developers.googleblog.com

RSS Hunter • 5月12日

在 Google TPU 上加速大语言模型推理：通过扩散式推测解码实现 3 倍加速

UCSD 的研究人员成功将 DFlash 这一基于块扩散的推测解码方法部署于 Google TPU 上，以规避传统自回归草稿的串行瓶颈。该系统通过在单次前向传播中“绘制”整块候选 token，而非逐个预测，实现了平均 3.13 倍的速度提升，峰值性能几乎达到现有方法（如 EAGLE-3）的两倍。该开源集成方案融入 vLLM 生态系统，通过利用“免费”的并行验证与高质量的草稿预测，优化了 TPU 硬件在复杂推理任务中的表现。

Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding developers.googleblog.com

RSS Hunter • 5月4日

使用 Gemini Embedding 2 构建：代理式多模态 RAG 及更广泛的应用

Google 已宣布 Gemini Embedding 2 正式可用，这是一个统一模型，可将文本、图像、视频、音频和文档映射到单一的语义空间。该模型允许开发者在单个请求中处理交错的多模态输入，显著提升了智能体 RAG、视觉搜索和内容审核等任务的性能。通过支持超过 100 种语言，并提供任务特定前缀和 Matryoshka 降维等功能，该模型为构建复杂 AI 智能体提供了高效且准确的基础。

Building with Gemini Embedding 2: Agentic multimodal RAG and beyond developers.googleblog.com

RSS Hunter • 4月30日

加速人工智能：通过 GCSFS 和 Rapid Bucket 将 Google Colossus 引入 PyTorch

Google Cloud 推出了一种高性能集成方案，通过 fsspec 接口将 Rapid Storage 直接与 PyTorch 连接，从而消除 AI 训练瓶颈。该方案利用 Google 的 Colossus 架构和双向 gRPC 流式传输，提供高达 15 TiB/s 的聚合吞吐量，并显著降低延迟。这些改进使开发者在无需修改代码（仅需更新存储桶类型）的情况下，将总训练时间缩短 23%。

Speeding Up AI: Bringing Google Colossus to PyTorch via GCSFS and Rapid Bucket developers.googleblog.com

RSS Hunter • 4月29日

利用LiteRT和NPU构建真实世界的设备内AI。

LiteRT 是一个已具备生产就绪能力的框架，旨在帮助移动开发者释放神经网络处理器（NPU）的潜力，克服传统 CPU 或 GPU 处理在性能与功耗方面的局限。通过提供统一的应用程序接口（API）来屏蔽硬件复杂性，LiteRT 使 Google Meet 和 Epic Games 等行业领军企业能够以显著更高的效率部署复杂的 AI 模型，用于实时视频、动画和语音识别。该平台还通过基准测试工具和跨平台兼容性，支持开发者在移动设备、AI PC 及工业物联网硬件上实现无缝的 AI 部署。

Building real-world on-device AI with LiteRT and NPU developers.googleblog.com

RSS Hunter • 4月24日

Agent Platform 中的 Agents CLI：通过单一 CLI 实现从创建到生产环境的部署

Google Cloud 推出了 Agents CLI，这是一款专用工具，旨在弥合本地开发与生产级 AI 代理部署之间的差距。该 CLI 为代码助手提供对完整 Google Cloud 栈的可机器读取访问，从而在脚手架构建过程中减少上下文过载和 token 浪费。通过将评估、基础设施 provisioning 和部署整合到统一的程序化骨干中，该工具使开发者能够在数小时内从初始概念推进至上线服务，而无需数周时间。

Agents CLI in Agent Platform: create to production in one CLI developers.googleblog.com

RSS Hunter • 4月22日

生产就绪的 AI 智能体：重构单体架构的五大经验

该博客文章概述了如何将一个脆弱的销售研究原型，借助谷歌的 Agent 开发套件（ADK）转化为稳健的生产级智能体。通过以编排的子智能体和结构化的 Pydantic 输出替代单体脚本，开发人员消除了静默故障和脆弱的解析问题。此外，文章还强调了动态检索增强生成（RAG）管道和 OpenTelemetry 可观测性的必要性，以确保 AI 智能体在实际应用中具备可扩展性、成本效益和透明度。

Production-Ready AI Agents: 5 Lessons from Refactoring a Monolith developers.googleblog.com

RSS Hunter • 4月21日

A2UI v0.9：便携式、与框架无关的生成式用户界面的新标准”

A2UI v0.9 推出了一种与框架无关的标准，旨在帮助 AI 代理利用企业现有的设计系统生成实时、定制化的 UI 组件。此次更新通过引入新的 Python Agent SDK、共享 Web 核心库，以及对 React、Flutter 和 Angular 等渲染器的官方支持，简化了开发体验。通过将 UI 意图与具体平台解耦，该版本实现了跨 Web 和移动应用的生成式界面无缝、低延迟流式传输。通过与 AG2 和 Vercel 等更广泛的生态系统集成，A2UI v0.9 致力于推动生成式 UI 从实验性演示迈向可投入生产的数字产品。”

A2UI v0.9: The New Standard for Portable, Framework-Agnostic Generative UI developers.googleblog.com

RSS Hunter • 4月17日

MaxText 扩展了后训练能力：在单台主机 TPU 上引入监督微调（SFT）和强化学习（RL）

MaxText 现已为单主机 TPU 配置新增了对监督微调（SFT）和强化学习（RL）的支持，借助 JAX 和 Tunix 库实现高性能模型优化。这些功能使开发者能够利用 GRPO 和 GSPO 等高效算法，轻松将预训练模型适配至特定任务与复杂推理场景。此次更新简化了后训练流程，提供了从单主机部署扩展至更大规模多主机配置的可行路径。

MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs developers.googleblog.com

RSS Hunter • 4月16日