RSS Google 开发者博客 关注 developers.googleblog.com是Google开发者官方博客。这里,他们提供了关于各种开发者工具及其功能、bug修复和提高开发技能的教程。博客还发布了与Google软件开发项目相关的案例研究、采访和社区新闻。 RSS developers.googleblog.com Google Developers Blog developers.googleblog.com
使用 Google 的 Agent 开发套件和 A2A 构建跨语言多智能体团队 Python 代理与 Go 代理如何利用 Agent2Agent 协议协作进行合同合规性检查... Build Cross-Language Multi-Agent Team with Google’s Agent Development Kit and A2A developers.googleblog.com
A2A 如何构建协作智能体世界” 庆祝 Agent-to-Agent(A2A)协议一周年,本文阐述了该框架如何使自主 AI 代理在无需传统 API 僵化约束的情况下安全协作并移交任务。通过将复杂工作流委托给专业对等代理,A2A 避免了上下文污染,保障了数据隐私,并通过模块化简化了应用设计。为展示该生态系统的实际运作,本文重点介绍了 FoldRun——一个面向生命科学的代理接口,用于编排复杂的蛋白质结构预测——以及涵盖商业、数据流、DevOps 和电信领域的多样化 A2A 用例。 How A2A is Building a World of Collaborative Agents developers.googleblog.com
A2UI + MCP 应用:结合声明式与自定义代理 UI 的最佳实践” 本文介绍了三种架构模式,旨在将模型上下文协议(MCP)应用与代理到用户界面(A2UI)相结合,以解决高度定制的 iframe 环境与原生声明式渲染之间的权衡问题。通过结合这些方法,开发者可以直接通过 MCP 服务器提供具有原生体验的 UI,在声明式视图中安全地嵌入复杂且具备状态管理的 iframe 应用,或将生成式 UI 组件注入遗留系统。最终,这些混合框架赋能工程团队交付安全、高性能且品牌一致的智能体用户体验,并可根据具体项目约束进行定制。 A2UI + MCP Apps: Combining the best of declarative and custom agentic UIs developers.googleblog.com
发布代理资源发现规范 一种用于在网络上查找和验证工具、技能及智能体的开放规范。智能体是…… Announcing the Agentic Resource Discovery specification developers.googleblog.com
增强安全与信任:Google 登录中的新会话元数据 Google 正在增强“使用 Google 登录”功能,通过引入新的 OIDC 标准声明——特别是 auth_time 和 amr(认证方法参考),为开发者提供更深入的会话元数据。这些更新使已验证的应用能够验证用户登录的“新鲜度”以及所使用的具体认证方法(例如多因素认证或硬件密钥),从而实现更动态、基于风险的访问控制。通过利用这些联邦身份信号,平台可以更有效地防止账户接管和欺诈,同时实施细粒度的安全策略,例如对敏感操作执行升级认证。 Enhance Security and Trust: New Session Metadata in Sign in with Google developers.googleblog.com
释放 TPU 栈的潜能:推出我们的新开发者中心 Google 正式推出 TPU 开发者中心,这是一个集成的教育资源,旨在帮助模型构建者和开发者最大化 Google Cloud TPU 的性能。该中心提供以代码为核心的资源、开源示例以及深入的技术文档,涵盖硬件架构、软件优化、调试、并行性和网络等方面。这些材料专为人类开发者和 AI 辅助工具量身定制,以简化从大规模训练到低延迟推理工作负载的全流程。 Unlocking the Power of the TPU Stack: Introducing our new Developer Hub developers.googleblog.com
DiffusionGemma:开发者指南 DiffusionGemma 是一款基于 Gemma 4 架构构建的实验性文本生成模型,采用基于扩散的并行生成方式替代传统的逐词自回归方法,从而在保持可部署于消费级 GPU 的同时,实现更快的推理速度、双向上下文感知以及实时自我修正。其架构通过迭代去噪过程并行生成并优化 256 个 token 的块,使其在处理如数独等基于复杂约束的任务时,效果优于传统语言模型,并展现出微调带来的显著增益。该模型已集成至 vLLM 及其他主流推理框架,为开发者提供了一种兼具高性能、高效长上下文扩展能力以及易于定制与部署的新型非自回归方法。 DiffusionGemma: The Developer Guide developers.googleblog.com
介绍 Google Colab CLI Google 发布了 Google Colab 命令行界面(CLI),这是一款新工具,允许开发者和 AI 代理将本地终端连接到远程 Colab 运行时,从而实现无摩擦执行。该轻量级 CLI 使用户能够轻松请求高性能 GPU、在远程运行本地 Python 脚本,并无缝获取工件日志或模型(如微调后的 Gemma 3 适配器)。通过将工具直接集成到标准终端环境中,其高度可编程,并可供 Antigravity 或 Claude Code 等 AI 代理使用,以管理复杂的机器学习流程。 Introducing the Google Colab CLI developers.googleblog.com
将 Gemma 4 12B 部署至您的笔记本电脑:借助 Google AI Edge 解锁本地代理工作流 Google DeepMind 的 Gemma 4 12B 模型将代理式、多模态 AI 能力带入配备 16GB 内存的日常笔记本电脑,支持本地数据处理与视觉洞察生成。用户可通过 Google AI Edge Gallery 在 macOS 上利用该模型,实现动态 Python 代码执行与可视化;也可通过 Google AI Edge Eloquent 实现完全离线的语音转写与文本编辑。此外,LiteRT-LM CLI 新增的 serve 命令增强了开发者工作流,可创建符合行业标准的本地端点,以驱动完全本地的 AI 工具与代理。 Bringing Gemma 4 12B to your Laptop: Unlocking Local, Agentic Workflows with Google AI Edge developers.googleblog.com
Gemma 4 12B:开发者指南” 新发布的 Gemma 4 12B 是一款稠密的多模态模型,专为在消费级设备上实现高性能本地 AI 执行而设计。通过引入一种新颖的无编码器架构,它绕过了传统的视觉和音频编码器,直接将多模态数据输入到 LLM 主干网络中。 Gemma 4 12B: The Developer Guide developers.googleblog.com
使用 Google Pay 和钱包开发者 MCP 服务器,加速您的集成工作流。 Google 发布了新的 Google Pay & Wallet 开发者 MCP 服务器,这是一款基于开放标准的工具,旨在安全地将 AI 开发助手和 IDE 与实时 API 及账户上下文连接起来。该服务器允许开发者在开发环境中直接搜索官方文档、验证 Wallet 通行证定义、检查集成状态并管理商户账户。最终,此次集成旨在通过减少上下文切换并提供最新、基于事实的 AI 支持,降低摩擦并加速开发工作流。 Supercharge your integration workflow with the Google Pay & Wallet Developer MCP server developers.googleblog.com
社区如何利用 Tunix 和 TPU 训练 Gemma 进行“思考” Kaggle 举办的 Google Tunix 黑客松挑战开发者利用 Kaggle TPU 和有限的计算预算,将小型非推理基座模型转化为通用推理引擎。获胜团队通过实施多阶段后训练流程,将监督微调(SFT)与 GRPO、SimPO 等高级对齐技术相结合,实现了这一目标。最终,该竞赛通过证明高度 capable、结构化的推理模型可由社区利用可访问的开源资源成功训练,推动了人工智能开发的民主化。 How the community trained Gemma to "Think" with Tunix and TPUs developers.googleblog.com
Google Pay 的最新更新 Google Pay 正通过推出通用商业协议(Universal Commerce Protocol)及新的 MCP 服务器,向“代理型商业”(agentic commerce)演进,使 AI 代理能够管理集成并分析趋势。最新的 Android 更新引入了动态回调,以实现无缝的快捷结账,并将支付支持通过 WebViews 扩展至社交媒体应用。此外,该平台还将推出跨设备生物识别认证及新的交易信号,以帮助商家减少摩擦并优化处理成本。 The latest updates to Google Pay developers.googleblog.com
使用 Google Pay 动态回调增强 Android 结账流程 我们很高兴为 Android 原生应用引入带有 Google Pay 的 Express 结账功能,使开发者能够…… Enhancing Android Checkout with Dynamic Callbacks in Google Pay developers.googleblog.com
借助 Gemini for Home 赋能服务提供商与硬件合作伙伴 Google 正通过推出全栈 Gemini AI 解决方案来扩展其智能家居生态系统,该方案集成了先进的摄像头智能、自然语言查询以及日常活动摘要。此举为服务提供商和硬件制造商提供了交钥匙参考设计和 API,使其无需大量研发工作即可构建主动式、品牌化的服务。最终,该计划旨在超越基础设备控制,迈向原生 AI 驱动的智能家居,使其能够理解上下文并实时响应用户需求。 Empowering Service Providers and Hardware Partners with Gemini for Home developers.googleblog.com
发布 Kotlin ADK 和 Android ADK 0.1.0:在 Android 及更广泛的平台上构建 AI 智能体 Kotlin ADK 将代理工作流引入您的后端项目,而 Android ADK 则提供... Announcing ADK for Kotlin and ADK for Android 0.1.0: Building AI Agents on Android and Beyond developers.googleblog.com
一年创新:庆祝 Google Cloud x NVIDIA 开发者社区 10 万成员 Google Cloud 与 NVIDIA 开发者社区正在庆祝其成立一周年,目前拥有 100,000 名成员,并重新聚焦于为构建者提供先进的 AI 基础设施与资源。为加速开发进程,该社区提供精选的学习路径,助力掌握大语言模型(LLM)优化、GPU 加速数据分析以及每月由专家主讲的网络研讨会。进入第二年,该计划将扩展至包含动手实验、工程活动,以及专注于智能体(Agentic)AI 发展的专题内容。 One Year of Innovation: Celebrating 100k Members in the Google Cloud x NVIDIA Developer Community developers.googleblog.com
来自 2026 年 Google I/O 开发者大会的所有新闻” Google 宣布从辅助式 AI 向独立智能体转型,重点推出了 Gemini 3.5 系列,并大幅更新了其以智能体为先的 Antigravity 开发平台。针对移动开发者,该更新引入了新的 Android 命令行工具(CLI)、Android Bench 评估排行榜,以及一个自动化迁移智能体,可快速将各类框架转换为原生 Kotlin 代码。Web 开发领域也迎来变革:Chrome DevTools 现已支持智能体,推出了 HTML-in-Canvas API,并提出了 WebMCP 提案——这是一项开放 Web 标准,使基于浏览器的 AI 智能体能够执行复杂任务。 All the news from the Google I/O 2026 Developer keynote developers.googleblog.com
重要更新:将 Gemini CLI 迁移至 Antigravity CLI Google 正通过将其面向社区的 Gemini CLI 过渡到 Antigravity CLI,来统一其 AI 终端工具。Antigravity CLI 是一个全新的以智能体为核心的平台,专为复杂的多智能体工作流而构建。这款基于 Go 的新工具提供更快的执行速度、异步处理能力,以及能够与 Antigravity 2.0 桌面应用程序同步的统一架构。虽然企业客户将保留现有的访问权限,但个人用户和免费用户必须在 2026 年 6 月 18 日 Gemini CLI 停止服务之前,迁移至新平台。 An important update: Transitioning Gemini CLI to Antigravity CLI developers.googleblog.com
带有 LiteRT 的 Google Tensor SDK Beta Google Tensor ML SDK 现已进入 Beta 阶段,使开发者能够直接在 Google Pixel 10 设备的 TPU 上构建和部署高性能机器学习模型。通过与 LiteRT(Google 的边缘部署框架)集成,该 SDK 为开发者提供了统一的工作流,可将 PyTorch 或 TFLite 模型进行转换、编译并运行,并具备健壮的降级选项。此外,新增的模型花园提供了超过 100 个经典和生成式 AI 模型,包括 Gemma 3,从而支持低延迟、私密的语音识别、计算机视觉和文本生成功能。 Google Tensor SDK Beta with LiteRT developers.googleblog.com
基于 LiteRT-LM 的极速端侧生成式人工智能 Google AI Edge 的 LiteRT-LM 为在跨平台移动和边缘环境中运行 Gemma 4 提供了经过生产验证、高度优化的基础设施。它通过利用内存高效的动态加载、多令牌预测(可实现高达 2.2 倍的速度提升)以及先进的编排工具(如思考模式和受限解码),主动在设备上解锁模型的固有 multimodal(多模态)和 agentic(代理)功能。此外,该引擎正在迅速扩展其集成界面,超越 Android 平台,为 Apple 生态系统引入新的原生 Swift API,并为高性能无服务器浏览器推理提供基于 WebGPU 加速的 JavaScript API。 Blazing fast on-device GenAI with LiteRT-LM developers.googleblog.com
更智能的 Google AI Edge Gallery:MCP 集成、通知与会话连续性 Google AI Edge Gallery 应用通过在 Android 上引入对开源 Model Context Protocol(MCP)的实验性支持,扩展了其端侧 AI 能力,使 Gemma 4 能够协调跨外部数据源(如 Google Workspace 和 Google Maps)的复杂任务。为支持更主动且持久的用户交互,此次更新新增“定时通知”技能以自动化日常流程,并引入持久化聊天记录功能,可近乎即时恢复长会话上下文。该平台由开源工具包驱动,鼓励社区开发者通过其 GitHub 仓库构建和分享以实用工作流、提示配置及工具集成为重点的自定义功能。 A Smarter Google AI Edge Gallery: MCP integration, notifications, and session continuity developers.googleblog.com
加速端侧 AI:Arm 与 Google AI Edge 优化探析 Arm 可扩展矩阵扩展 2(SME2)与 Google AI Edge 软件栈的集成,通过将 CPU 转化为强大的矩阵计算加速器,实现了高性能的端侧生成式 AI。以 Stability AI 的"stable-audio-open-small"模型为例,文章概述了一条简化的“转换、优化与部署”流水线,该流水线利用 LiteRT、XNNPACK 和 KleidiAI 实现硬件加速的自动化。最终实现方案在 Arm 驱动的移动设备和笔记本电脑上,在保持高音频质量的同时,将音频生成速度提升超过 2 倍,并将内存使用量降低 4 倍。 Accelerating on-device AI: A look at Arm and Google AI Edge optimization developers.googleblog.com
发布 Genkit 中间件:拦截、扩展并加固您的代理应用 Genkit 是一个开源框架,旨在帮助开发者使用 TypeScript、Go、Dart 和 Python 构建生产就绪的代理式 AI 应用。该框架利用强大的中间件系统拦截生成调用,以注入自定义行为,例如重试、模型降级和人工介入工具审批。通过在 generate、model 和 tool 层附加钩子,开发者可确保模型输出具备高可靠性并实现确定性控制。此外,Genkit 支持创建和堆叠自定义中间件,所有中间件均可通过专用的开发者 UI 进行查看和调试。 Announcing Genkit Middleware: Intercept, extend, and harden your agentic apps developers.googleblog.com
使用 ADK 构建可暂停、恢复且永不丢失上下文的长期运行 AI 智能体 如何从无状态聊天机器人过渡到能够管理长期企业工作流(如跨越数天或数周的 HR 入职流程)的生产级智能体。本文介绍了智能体开发套件(ADK)及其架构演进,特别是利用持久化状态机和持久会话存储,确保智能体在“空闲时段”或服务器重启期间不会丢失上下文。通过利用事件驱动的 Webhook 和多智能体委派,本教程展示了如何构建具有弹性的系统,使其在暂停期间“休眠”,并在需要时“唤醒”以高推理准确率继续执行复杂任务。 Build Long-running AI agents that pause, resume, and never lose context with ADK developers.googleblog.com
在 Google TPU 上加速大语言模型推理:通过扩散式推测解码实现 3 倍加速 UCSD 的研究人员成功将 DFlash 这一基于块扩散的推测解码方法部署于 Google TPU 上,以规避传统自回归草稿的串行瓶颈。该系统通过在单次前向传播中“绘制”整块候选 token,而非逐个预测,实现了平均 3.13 倍的速度提升,峰值性能几乎达到现有方法(如 EAGLE-3)的两倍。该开源集成方案融入 vLLM 生态系统,通过利用“免费”的并行验证与高质量的草稿预测,优化了 TPU 硬件在复杂推理任务中的表现。 Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding developers.googleblog.com
使用 Gemini Embedding 2 构建:代理式多模态 RAG 及更广泛的应用 Google 已宣布 Gemini Embedding 2 正式可用,这是一个统一模型,可将文本、图像、视频、音频和文档映射到单一的语义空间。该模型允许开发者在单个请求中处理交错的多模态输入,显著提升了智能体 RAG、视觉搜索和内容审核等任务的性能。通过支持超过 100 种语言,并提供任务特定前缀和 Matryoshka 降维等功能,该模型为构建复杂 AI 智能体提供了高效且准确的基础。 Building with Gemini Embedding 2: Agentic multimodal RAG and beyond developers.googleblog.com
加速人工智能:通过 GCSFS 和 Rapid Bucket 将 Google Colossus 引入 PyTorch Google Cloud 推出了一种高性能集成方案,通过 fsspec 接口将 Rapid Storage 直接与 PyTorch 连接,从而消除 AI 训练瓶颈。该方案利用 Google 的 Colossus 架构和双向 gRPC 流式传输,提供高达 15 TiB/s 的聚合吞吐量,并显著降低延迟。这些改进使开发者在无需修改代码(仅需更新存储桶类型)的情况下,将总训练时间缩短 23%。 Speeding Up AI: Bringing Google Colossus to PyTorch via GCSFS and Rapid Bucket developers.googleblog.com
利用LiteRT和NPU构建真实世界的设备内AI。 LiteRT 是一个已具备生产就绪能力的框架,旨在帮助移动开发者释放神经网络处理器(NPU)的潜力,克服传统 CPU 或 GPU 处理在性能与功耗方面的局限。通过提供统一的应用程序接口(API)来屏蔽硬件复杂性,LiteRT 使 Google Meet 和 Epic Games 等行业领军企业能够以显著更高的效率部署复杂的 AI 模型,用于实时视频、动画和语音识别。该平台还通过基准测试工具和跨平台兼容性,支持开发者在移动设备、AI PC 及工业物联网硬件上实现无缝的 AI 部署。 Building real-world on-device AI with LiteRT and NPU developers.googleblog.com
Agent Platform 中的 Agents CLI:通过单一 CLI 实现从创建到生产环境的部署 Google Cloud 推出了 Agents CLI,这是一款专用工具,旨在弥合本地开发与生产级 AI 代理部署之间的差距。该 CLI 为代码助手提供对完整 Google Cloud 栈的可机器读取访问,从而在脚手架构建过程中减少上下文过载和 token 浪费。通过将评估、基础设施 provisioning 和部署整合到统一的程序化骨干中,该工具使开发者能够在数小时内从初始概念推进至上线服务,而无需数周时间。 Agents CLI in Agent Platform: create to production in one CLI developers.googleblog.com
生产就绪的 AI 智能体:重构单体架构的五大经验 该博客文章概述了如何将一个脆弱的销售研究原型,借助谷歌的 Agent 开发套件(ADK)转化为稳健的生产级智能体。通过以编排的子智能体和结构化的 Pydantic 输出替代单体脚本,开发人员消除了静默故障和脆弱的解析问题。此外,文章还强调了动态检索增强生成(RAG)管道和 OpenTelemetry 可观测性的必要性,以确保 AI 智能体在实际应用中具备可扩展性、成本效益和透明度。 Production-Ready AI Agents: 5 Lessons from Refactoring a Monolith developers.googleblog.com
A2UI v0.9:便携式、与框架无关的生成式用户界面的新标准” A2UI v0.9 推出了一种与框架无关的标准,旨在帮助 AI 代理利用企业现有的设计系统生成实时、定制化的 UI 组件。此次更新通过引入新的 Python Agent SDK、共享 Web 核心库,以及对 React、Flutter 和 Angular 等渲染器的官方支持,简化了开发体验。通过将 UI 意图与具体平台解耦,该版本实现了跨 Web 和移动应用的生成式界面无缝、低延迟流式传输。通过与 AG2 和 Vercel 等更广泛的生态系统集成,A2UI v0.9 致力于推动生成式 UI 从实验性演示迈向可投入生产的数字产品。” A2UI v0.9: The New Standard for Portable, Framework-Agnostic Generative UI developers.googleblog.com
MaxText 扩展了后训练能力:在单台主机 TPU 上引入监督微调(SFT)和强化学习(RL) MaxText 现已为单主机 TPU 配置新增了对监督微调(SFT)和强化学习(RL)的支持,借助 JAX 和 Tunix 库实现高性能模型优化。这些功能使开发者能够利用 GRPO 和 GSPO 等高效算法,轻松将预训练模型适配至特定任务与复杂推理场景。此次更新简化了后训练流程,提供了从单主机部署扩展至更大规模多主机配置的可行路径。 MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs developers.googleblog.com
Google Pay API 中针对商户发起的交易新增的功能增强 Google 已对 Google Pay API 进行升级,为开发者提供更大的灵活性,以更好地控制商户发起的交易(MIT)。此次更新在 PaymentDataRequest 中新增了专用对象,用于处理 recurring 订阅、延迟支付(如酒店预订)以及自动账户充值等场景。通过允许商户明确定义未来的支付条款,这些改进提升了用户的透明度,并借助更优的令牌管理降低了交易失败率。开发者如今可利用这些功能,构建更加流畅且安全的长期支付体验。 New enhancements for merchant initiated transactions with the Google Pay API developers.googleblog.com
子代理已接入 Gemini CLI Gemini CLI 现已推出子代理(subagents),即专注于处理复杂或高负载任务的专家型代理。这些代理在隔离的上下文窗口中运行,以保持主会话的快速与专注。它们可通过 Markdown 文件进行自定义,支持并行运行以提升生产力,并可通过 `@agent` 语法轻松调用,实现精准的任务委派。该架构通过将复杂的 multi-step 执行过程整合为简洁的摘要反馈给主协调器,从而有效防止“上下文腐烂”(context rot)问题。 Subagents have arrived in Gemini CLI developers.googleblog.com
准备好迎接 Google I/O:直播日程表已公布 Google I/O 将于 5 月 19 日至 20 日回归,重点展示人工智能、Android、Chrome 和云领域的重大更新,首场主题演讲将聚焦于“代理时代”的开发范式。本次活动将围绕旨在自动化复杂工作流、简化高质量 AI 就绪型应用构建的新工具展开。参会者可注册参与现场直播、技术演示以及线上线下均可访问的专业开发资源。 Get ready for Google I/O: Livestream schedule revealed developers.googleblog.com
构建更优的 AI 智能体:来自智能体烘焙大赛的五位开发者建议 Google Cloud AI Agent Bake-Off 凸显了从简单的提示工程向严谨的智能体工程的转变,强调生产就绪型 AI 需要采用模块化、多智能体架构。该文章提出了五项关键开发者建议,包括将复杂任务分解为专用子智能体,并使用确定性代码执行以避免概率性错误。此外,文章建议开发者优先支持多模态能力,并采用如 MCP 等开源协议,以确保智能体具备可扩展性、可集成性,并能适应模型能力快速演进的未来需求。 Build Better AI Agents: 5 Developer Tips from the Agent Bake-Off developers.googleblog.com
隆重推出 EmbeddingGemma:同类最佳的设备端嵌入开源模型 隆重推出 EmbeddingGemma:谷歌专为高效的设备端 AI 应用设计的新款嵌入模型。这款开源模型在 MTEB 基准测试中,是 5 亿以下参数中排名最高的纯文本多语言嵌入模型,能够直接在移动设备上实现强大的功能,例如 RAG 和语义搜索,无需互联网连接。 Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings developers.googleblog.com
如何最好地提示 Gemini 2.5 Flash 进行图像生成 以下是使用 Google 最新发布的 Gemini 2.5 Flash Image 的详细提示技术和最佳实践,适用于各种应用,包括照片级写实场景、风格化插画、产品模型等。Gemini 2.5 Flash Image 是一个原生多模态模型,能够使用文本生成、编辑和组合图像,支持文本到图像、图像编辑、风格迁移和多图像组合等功能。 How to prompt Gemini 2.5 Flash Image Generation for the best results developers.googleblog.com
别再“凭感觉”测试你的大型语言模型了,是时候进行真正的评估了。 Stax 是一款实验性的开发者工具,它通过简化 LLM 评估生命周期,让用户能够严格测试其 AI 堆栈,并通过人工标注和可扩展的“LLM 作为裁判”的自动评分器做出数据驱动的决策,从而解决了“氛围测试” LLM 不足的问题。 Stop “vibe testing” your LLMs. It's time for real evals. developers.googleblog.com
超越终端:Gemini CLI 登陆 Zed Google 与 Zed 合作,将 Gemini CLI 直接集成到 Zed 代码编辑器中,为开发者带来编辑器内的 AI 功能,实现更快速、更集中的编码,能够进行就地代码生成、即时问答,以及在终端中进行自然语言聊天,并为 AI 生成的更改提供无缝审查工作流程。 Beyond the terminal: Gemini CLI comes to Zed developers.googleblog.com
介绍 Gemini 2.5 Flash Image,我们最先进的图像模型。 Gemini 2.5 Flash Image 是一款全新的、最先进的图像生成和编辑模型,它能够融合多张图片,保持角色一致性,并利用 Gemini 的世界知识通过自然语言进行定向转换,现已通过 Gemini API、Google AI Studio 和 Vertex AI 提供。 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model developers.googleblog.com
Gemini Code Assist 的新功能 Gemini Code Assist 的 Agent 模式现已在 VS Code (预览版) 和 IntelliJ (稳定版) 中推出,它通过提出详细的计划供用户审查和批准,从而简化复杂的编码任务。这种智能、协作的方法,结合了内联差异和持久聊天记录等功能,旨在提高开发者的生产力和效率。 What's new in Gemini Code Assist developers.googleblog.com
在TPU上免费训练GPT2模型 使用 JAX 在 Google TPUs 上从头开始构建和训练 GPT2 模型,提供完整的 Python notebook,可在免费的 Colab 或 Kaggle 上运行。学习如何定义硬件 Mesh、划分模型参数和输入数据以实现数据并行,以及优化模型训练过程。 Train a GPT2 model with JAX on TPU for free developers.googleblog.com
适用于 Gemini API 的 URL 上下文工具现已全面推出 Gemini API 的 URL Context 工具现已正式上线,开发者可以使用该工具通过网页内容来完善提示词,而无需手动上传文件。本次更新还扩展了对 PDF 和图像文件的支持。 URL context tool for Gemini API now generally available developers.googleblog.com
宣布 Imagen 4 Fast 以及 Gemini API 中 Imagen 4 系列的普遍可用性 Google 宣布其先进的文本到图像模型 Imagen 4 已在 Gemini API 和 Google AI Studio 中全面上市,该模型在文本渲染方面有了显著的改进。全新的 Imagen 4 Fast 模型专为速度和快速图像生成而设计,现已与 Imagen 4 和 Imagen 4 Ultra 一同提供,同时 Imagen 4 和 Imagen 4 Ultra 还支持高达 2K 分辨率的图像生成。 Announcing Imagen 4 Fast and the general availability of the Imagen 4 family in the Gemini API developers.googleblog.com
隆重推出 Gemma 3 270M:专为超高效 AI 而设计的精巧模型 谷歌新款 Gemma 3 270M 是一款紧凑型模型,拥有 2.7 亿个参数,具有能效高、生产级量化以及强大的指令遵循能力,是设备端和研究环境中针对特定任务进行微调的强大解决方案。 Introducing Gemma 3 270M: The compact model for hyper-efficient AI developers.googleblog.com
Gemini CLI + VS Code:原生差异比较和上下文感知工作流 Gemini CLI 的最新更新为 VS Code 提供了深度 IDE 集成,可实现智能、上下文感知的建议,以及原生的编辑器内差异比较功能,允许开发人员直接在差异视图中查看和修改建议的更改,从而实现更高效的工作流程。 Gemini CLI + VS Code: Native diffing and context-aware workflows developers.googleblog.com
认识一下朱尔斯最尖锐的批评者和最有价值的盟友。 Jules 的评论功能通过充当生成过程中的同行评审员,解决了 AI 生成代码中潜在的问题,例如细微的错误和遗漏的边缘情况。这种“增强评论的生成”意味着提议的代码更改会经过对抗性审查,从而使 Jules 能够改进其输出,并最终交付更高质量、经过预先审查的代码。 Meet Jules’ sharpest critic and most valuable ally developers.googleblog.com