VentureBeat 的 RSS 订阅 关注 VentureBeat是一个备受尊敬的技术新闻和分析网站,专注于报道创新和不断变化的技术、科学和未来的工作世界。该网站提供了准确的报道、深入的市场分析和对新兴技术中机遇和挑战的深入评论。它涵盖了广泛的主题,包括人工智能、机器人、区块链、游戏等。其报道内容包括突发新闻、特写故事和客座投稿,为读者提供了多样化的内容。 RSS venturebeat.com VentureBeat venturebeat.com
企业级 AI 图像生成现已实现 2 秒生成:Krea 2 Raw 和 Turbo 以自定义许可协议形式提供开放权重。 AI 生成图像往往缺乏原创性,从而催生了对更具独特性视觉内容的渴望。Krea 是一家 AI 创意工具初创公司,其推出的新模型 Krea 2 旨在解决这一问题。该模型以两个版本发布:Krea 2 Raw 和 Krea 2 Turbo。这两个模型可供公众下载,相较于典型的 AI 生成器,提供了更丰富的视觉多样性和更精准的提示词理解能力。用户还能比其他模型更广泛地自定义输出结果。Krea 2 Turbo 具备出色的生成速度,仅需两秒即可生成图像。Krea 2 的许可规定要求拥有超过 50 个席位的企业为商业用途付费,并强制实施针对非法内容的技术防护措施。Krea 2 Raw 作为自定义训练的空白画布,能够以高保真度吸收新风格。而 Krea 2 Turbo 则是一个经过蒸馏、速度更快的版本,专为快速生成高分辨率图像而优化。这种双轨策略使创作者能够在 Raw 上进行训练,并在 Turbo 上进行生成,从而构建强大的工作流。这些模型采用 120 亿参数的扩散 Transformer(Diffusion Transformer)架构,并进行了效率优化。其训练数据由公开数据、授权数据以及经过策划的合成数据集混合而成,并严格执行不在预训练阶段使用合成数据的政策。 Enterprise-grade AI image generation in 2 seconds is here: Krea 2 Raw and Turbo available as open weights under custom license venturebeat.com
Anthropic 推出 Claude Tag,以持久型 AI 队友取代其 Slack 应用,该队友具备学习、监控及自主工作能力。 Anthropic 推出了 Claude Tag,一款将先进 AI 模型直接嵌入 Slack 的新产品,使其成为常驻团队成员。该工具允许任何团队成员通过在指定频道中输入"@Claude"来将任务委托给 Claude。Claude Tag 旨在作为团队的常驻成员运作,构建记忆、主动发起行动,并与频道中的所有人互动,而非仅服务于单个用户。该产品依托 Claude Opus 4.8,提供多玩家互动、持续学习、主动发起和异步协作等功能。企业管理员可将 Claude Tag 与工作区配对,授予其对工具和数据来源的访问权限,并设定支出限额。Claude Tag 采用企业级隔离机制,允许管理员为不同用途定义独立的 Claude 身份,确保记忆和数据访问范围得到恰当限定。该平台提供强大的行政治理功能,包括令牌消耗限额以及 Claude 行动的全面日志。此次发布标志着 Anthropic 向企业协作层发起的积极扩张,该领域正受到 Salesforce 和 OpenAI 等其他主要 AI 厂商的激烈竞争。Claude Tag 的战略意义在于其深度集成于工作协调的通信层,从而获得分发与数据优势。Anthropic 的显著增长和巨额融资凸显了该公司对该频道级存在的投入。然而,企业采购方必须审慎权衡相关风险,包括供应商依赖、环境监控治理以及不断演变的定价模式。 Anthropic launches Claude Tag, replacing its Slack app with a persistent AI teammate that learns, monitors and works autonomously venturebeat.com
概念验证可以容忍脆弱的数据路径,而生产级 AI 则不行。 将 AI 工作负载从试点环境迁移到生产环境,凸显了数据交付作为关键扩展因子的地位。在演示中有效的点对点架构往往无法承受持续的生产流量,导致 AI 流水线停滞和资源利用率不足。这些基础设施缺陷会直接引发业务后果,如违反服务等级协议(SLA)和声誉受损。在生产环境中,简单的传输停滞即构成中断,而在试点环境中则不然。直接连接存储的架构脆弱不堪,性能会随之下降,一旦节点故障或流量激增,甚至可能导致集群失效。AI 工作流日益依赖 S3 存储,但当前的网络连接并未针对实现 GPU 最佳性能所需的一致高吞吐数据移动进行设计。基础设施故障会影响 AI 产出,进而波及客户体验、质量、韧性和成本。推理流水线停滞会导致 SLA 问题,而延迟的检索增强生成(RAG)系统则引发响应不准确及相应风险。GPU 利用率不足标志着基础设施效率低下,推高成本并限制可扩展性。F5 主张将数据交付作为一等基础设施层,聚焦于可观测性、可编程性和故障感知能力。其架构通过与 Dell ObjectScale 的演示相结合,利用 F5 BIG-IP 保护存储,通过管理流量并防止因配置错误导致的中断来实现这一目标。混合云和多云 AI 环境因异构性更强,面临更大的数据交付挑战,需要可编程的流量管理和统一的可观测性。在生产工程设计中取得成功的企业,均按“为故障设计”的理念构建,假定延迟和中断必然发生;它们构建可观测且具备故障感知能力的数路径,而非像仍停留在试点阶段的企业那样仅针对实验室条件进行优化。归根结底,决定生产就绪状态的,并非仅是模型质量或 GPU 数量,而是对数据交付层所施加的严谨程度。 A proof of concept forgives a fragile data path. Operational AI does not. venturebeat.com
阿里巴巴的 AI 视频模型在全球排名中升至第二位,而 OpenAI 的 Sora 和字节跳动的 Seedance 则排名下滑。 阿里云推出了HappyHorse 1.1,这是一款专为专业内容创作设计的先进AI视频生成模型。此次升级提供了可直接投入生产的视频合成功能,企业现可通过阿里云Model Studio以API形式使用该服务。 此次发布正值OpenAI的Sora等竞争对手面临可持续性问题,字节跳动的Seedance 2.0遭遇版权挑战之际。这一市场收缩为阿里巴巴在快速增长的生成式视频领域站稳脚跟提供了机遇。 HappyHorse 1.1 基于前代产品的成功而开发,其前代产品曾在独立的 AI 视频基准测试平台上名列前茅。其统一架构可在单次生成过程中处理多种模态,从而提高了效率。1.1 版本的主要改进包括角色身份的一致性、动作质量的提升以及视觉纹理的优化,从而解决了 AI 视频制作中的常见问题。 此次升级还提升了音视频同步效果,包括零漂移唇形同步,并增强了对复杂提示词的指令遵循能力。其他主要AI视频工具的退出使企业买家可选方案减少,这可能对阿里巴巴有利。该公司在全球云基础设施上的巨额投资,使其在延迟和数据合规性方面具备竞争优势。 对于在新的数字主权框架下运营的欧洲企业而言,这一基础设施的扩展至关重要。然而,阿里巴巴面临地缘政治方面的审查,包括被列入五角大楼名单,这使得企业的采购决策更加复杂。在这些挑战下,HappyHorse 1.1 的成功将取决于其能否将技术实力转化为广泛的企业采用。 Alibaba's AI video model rises to No. 2 in global rankings, as OpenAI's Sora and ByteDance's Seedance fall away venturebeat.com +1
没有 Claude Fable 5?没问题:Sakana 凭借全新的 Fugu 多模型自动合成系统实现了前沿性能。 Sakana AI 推出了 Fugu,这是一个多智能体编排系统,旨在通过统一的 OpenAI 兼容 API 提供先进的 AI 性能。Fugu 致力于通过动态将查询路由到专用 AI 代理池中,提供抵御供应商锁定和地缘政治出口管制的弹性。该系统绕过了单体 AI 模型结构,从而实现了灵活性并持续获取前沿 AI 能力。Sakana 首席执行官 David Ha 强调,Fugu 是一种更可靠的企业级解决方案,特别是在近期出口管制措施影响模型可用性的背景下。Fugu 充当协调器,将复杂任务分解并委派给各种基础模型以执行和验证。目前提供两个版本:适用于日常任务的 Fugu 和适用于复杂、高风险操作的 Fugu Ultra。Fugu 在特定智能体任务和代码基准测试中,性能可与顶级模型媲美甚至超越。Fugu 路由信息的专有性质是有意为之,以保护其内部协调策略。企业可以选择排除特定模型或提供商,以增强数据合规性和隐私保护。由于正在进行的监管对齐工作,Fugu 目前无法在欧盟和欧洲经济区(EEA)内运行。定价可通过订阅层级或按需付费计划获取,其中 Fugu Ultra 为更高级的选项。该系统允许用户控制提示词的使用,以便用于未来的训练数据。Fugu 的编排不同于简单的路由,它通过分解查询并在多个模型之间交错推理与委派来实现任务执行。 No Claude Fable 5? No problem: Sakana achieves frontier performance with new Fugu multi-model, auto synthesis system venturebeat.com
为什么具有能动性的企业需要成为学习型系统 组织每日产生大量宝贵知识,而人工智能系统往往未能加以利用。这些以多种格式捕获的知识,很少能指导未来的 AI 决策。组织的下一个前沿是“代理型企业”(agentic enterprise),其通过 AI 进行学习,而不仅仅是使用 AI。关键差异在于代理能否从运营经验中学习,而不仅仅是依赖模型重训练。所捕获的知识可在不改变核心 AI 模型的前提下,提升未来代理的性能。 反馈回路至关重要,它将每一次代理交互及其结果转化为学习机会。AI 可观测性(AI observability)提供了对代理行为的可见性,但真正的价值在于将这种观察转化为机构记忆(institutional memory)。这使得组织能够从单纯监控 AI 转向主动教导 AI。一个全面的學習系统可以整合来自安全、可观测性和网络代理的洞察。 当面临事件时,人类专家予以解决,而该解决方案中包含关键知识,可被捕获。所捕获的知识使代理能够从过往事件中学习,从而提升未来的问题解决能力。学习型代理型企业的架构包括记忆、知识库、数据编织(data fabric)、AI 可观测性和控制平面。这一集成系统使 AI 能够持续改进,并使企业变得更加智能。构建此类学习生态系统的组织将在 AI 时代脱颖而出。 Why agentic enterprises need to become learning systems venturebeat.com
研究人员提出了 Self-Harness 框架,使 AI 智能体能够重写自身规则,性能提升高达 60%。 大多数公司无法自行构建先进的 AI 语言模型,但可以且应当定制控制这些系统的架构,即“驾驭器”(harnesses)。当前的驾驭器工程仍依赖人工,依靠直觉和临时调试,效率低下,难以跟上不断演进的 AI 发展。研究人员提出了“自我驾驭器”(Self-Harness)这一新方法,使 AI 语言模型能够通过分析其执行轨迹来优化自身的运行规则。该方法以实证证据取代猜测,从而构建出能够适应模型弱点的稳健、定制化 AI 代理。驾驭器包含提示词、工具和记忆等组件,许多 AI 故障源于驾驭器问题而非核心模型本身。由于依赖直觉且缺乏系统化的反馈回路,人工驾驭器工程已成为瓶颈;随着新 AI 模型快速发布,手动调优日益不切实际且成本高昂。自我驾驭器使 AI 代理能够通过弱点挖掘、驾驭器提案和提案验证,迭代地优化其驾驭器。该过程使代理能够识别故障模式,生成针对性的驾驭器修改,并对其进行严格测试。实验表明,应用自我驾驭器后,AI 代理性能显著提升,且修改针对模型反复出现的问题。虽然自我驾驭器实现了驾驭器工程的自动化,但它需要大量计算资源,并高度依赖准确的评估流水线。它最适合于能够量化失败且试错安全的场景,如代码开发和运维(DevOps)。人类工程师的角色正从手动调整提示词,转向设计使 AI 能够自我改进的反馈系统,成为“反馈架构师”。 Researchers introduce Self-Harness, a framework that lets AI agents rewrite their own rules, boosting performance up to 60% venturebeat.com
AI 已触及内存墙——现在它需要一个新的上下文层级 AI 推理正从简单的交互转向复杂的多步骤代理系统。主要瓶颈已不再是 GPU 算力,而是上下文管理。上下文窗口正在扩大,代理 AI 链需要在会话间追踪持久状态。上下文数据的激增超出了现有存储层级的容量。一种新的专用上下文层级正在 GPU 内存与批量存储之间兴起。该层级将由高性能闪存 SSD 构成,用于存储和提供键值缓存及检索数据。这种专用存储架构与 AI 训练中顺序、写主导的需求显著不同。推理需要细粒度、对延迟敏感的存储,以快速访问并复用数据。若未优化此上下文层级,将导致 GPU 效率低下及先前生成状态的重复计算。企业领导者必须规划这一新的存储层级,以确保高效的 AI 推理并最大化投资回报。 AI hit the memory wall — now it needs a new context tier venturebeat.com
7,000 台 Langflow 服务器正遭受攻击。LangGraph 和 LangChain 存在相同的漏洞。 三种广泛使用的 AI 代理框架——LangGraph、Langflow 和 LangChain-core——存在关键漏洞,攻击者可借此实现远程代码执行或获取敏感信息。这些框架作为生产基础设施部署,用于存储代理状态、处理文件上传、加载提示词配置并保存关键凭证。传统安全工具(如 WAF 和 EDR)往往无法检测此类攻击,因为利用代码深嵌于导入的框架代码之中。 LangGraph 的 SQLite 检查点器中存在 SQL 注入漏洞(CVE-2025-67644),该漏洞可与反序列化缺陷(CVE-2026-28277)结合,通过伪造检查点行实现远程代码执行。尽管尚未在野外被利用,但已存在公开的 PoC,且更新版本已提供修复方案。Langflow 的文件上传端点存在路径遍历漏洞(CVE-2026-5027),允许未认证的攻击者写入任意文件,包括 cron 任务,从而导致活跃的远程代码执行。该漏洞正被积极利用,已有数千个实例暴露于互联网,补丁已于今年 4 月发布,凸显了立即打补丁的紧迫性。 LangChain-core 在其遗留的提示词加载 API 中存在路径遍历漏洞(CVE-2026-34070),当与反序列化漏洞(CVE-2025-68664)结合时,攻击者可读取任意文件,包括 API 密钥。这些问题源于常见的应用程序安全缺陷——SQL 注入、路径遍历和不安全的反序列化,而非 AI 特有的问题,因此难以用当前的安全实践加以检测。 核心问题在于,这些框架作为关键生产组件的集成速度远快于其安全加固进程,常以不安全的默认配置(如启用自动登录)发布。安全团队经常将这些 AI 代理框架误判为低风险开发工具,导致防护不足,形成“实时供应链风险”。若不及时修复这些漏洞,后果将不止于安全事件;若出现投毒数据或未授权操作,甚至可能导致“以机器速度执行的错误商业决策”。 董事会需理解这些漏洞带来的业务后果。面向董事会的沟通应强调:生产环境中的 AI 代理框架可通过已知漏洞赋予攻击者远程 shell;补丁已可用;且其中一个框架正遭受活跃的实战攻击。本文提供了一份六项问题清单,用于立即行动,重点在于验证并修复与代理状态投毒、未认证文件写入以及提示词加载器未授权文件读取相关的漏洞。这种紧迫的安全态势要求立即升级、禁用不安全默认配置,并将 AI 开发工具置于更严格的访问控制之后。 7,000 Langflow servers are under attack. LangGraph and LangChain have the same holes venturebeat.com
微调会遗忘。RAG 会泄露上下文。超网络按需构建您的代理所需的模型。 企业级 AI 代理往往难以实现持续的效率提升,因为它们需要持续的人工监督。这是因为随着输入数据的增加,AI 模型的准确性会下降,从而随时间推移变得不可靠。传统的解决方案如微调存在灾难性遗忘或导致模型泛滥的风险,而上下文学习则面临上下文腐烂和成本不断攀升的问题。这些方法无法确保模型既保持最新又使用正确的上下文,因此仍需人类介入。 一种有前景的替代方案是利用超网络按需生成小型、任务特定的模型。该方法通过在推理时创建模型适配器,规避了微调的重新训练成本以及提示法的上下文限制。这些生成的模型具有狭窄、最新和轻量化的特点,从而减小了错误表面并提升了自主性。 然而,超网络方法的成功取决于模型校准和足够的规模,这仍是活跃的研究领域。将输出结果锚定至其来源对于实现高效的人工验证至关重要,可防止对自动化偏见的依赖。模型改进的所有权及其运行位置也是关键考量因素。对于狭窄且重复的任务,超网络生成的模型在成本和自主性方面具有显著优势;而对于更简单、较短的任务,经过良好提示的前沿模型可能已足够。在购买之前,理解知识所在、锚定机制、升级触发条件以及反馈所有权是至关重要的。 Fine-tuning forgets. RAG leaks context. Hypernetworks build the model your agent needs on demand. venturebeat.com
Anthropic 的 Claude Code Artifacts 更新将实时共享仪表板和交互式工作空间引入企业环境 Anthropic在其团队和企业计划中推出了名为“Claude代码人工物”的新功能。工件将 Claude Code 会话转换为交互式、可分享的 HTML 网页。这些网页可以实时显示代码、多个数据源,并在AI工作时实时更新。这弥合了技术工程师与非技术利益相关者之间的鸿沟。工件作为动态翻译层,从现有代码库和监控工具构建网页,无需外部基础设施。与静态导出不同,这些页面会在原地刷新,提供版本历史以跟踪进度。这一功能与 OpenAI 为 Codex 提供的类似“网站”服务竞争。OpenAI的网站设计用于耐用的全栈网页应用,并配备持久的后端基础设施。相比之下,Anthropic的Artifacts是有意无状态的,专注于短暂且安全的技术流程。工件限制为16 MiB,并严格阻止外部网络请求以增强安全性。这两个平台都采用专有许可模式,意味着用户无法自行托管或修改底层渲染引擎。Anthropic和OpenAI都优先考虑企业安全,并由管理员管理强有力的访问控制。工件旨在用动态、安全的可视化工具取代传统的状态更新和手动操作。这一创新通过简化技术工作沟通,从根本上改变了开发者的工作流程。 Anthropic's Claude Code Artifacts update brings live, shared dashboards and interactive workspaces to enterprises venturebeat.com
新 AI 优化框架在相同计算预算下,性能超越 Claude Code 和 Codex 达 2.5 倍 为搜索内部文档等复杂任务设计的人工智能代理,常常会出现幻觉或遗漏生产中的关键约束。这需要经过繁琐的反复试验,难以准确定位改进的原因。Arbor是中国人民大学和Microsoft研究院的新框架,将这一过程转化为累积学习过程。它将假设、实验和见解组织成树状结构,使系统能够从过去的失败中学习。Arbor的实际测试显示,其可验证的性能提升超过标准AI编码代理的2.5倍以上。自主优化(AO)是人工智能研究的基本循环,旨在基于实验反馈迭代改进工件。AO的主要挑战是,仅仅提升计算能力并不能保证一定能有进展。当前智能体系统将每次尝试孤立对待,缺乏积累和处理已学会信息的机制。他们难以同时维护和比较多个研究方向,这阻碍了他们像人类那样解读结果和重塑未来探索的能力。通用编码代理由于上下文窗口限制,在漫长历史中常常丢失事实证据,导致进展停滞或追求无关改进。Arbor通过将研究方向与编码任务分离,使用协调员和执行者来解决这些问题。协调员负责管理整体研究状态,提出假设并分析结果。执行者是短命的代理,在孤立环境中测试单个假设并反馈。这种合作被称为假设树细化(HTR),将研究过程构建为一个持续的分支假设、证据和洞见树。Arbor 严格执行“合并门”以防止奖励黑客攻击,确保改进内容在集成前与未完成的测试数据进行验证。虽然 Arbor 的输出与现有的 Git 工作流程集成,但其主要成本是对长期协调器的令牌消耗以及孤立工作树的计算资源。Arbor 擅长具有明确指标和长时间范围的任务,但不适合实时任务或有缺陷的评估指标。 New AI optimization framework beats Claude Code and Codex by 2.5x on the same compute budget venturebeat.com
Copilot 已搜索您的邮箱。LiteLLM 分发了管理员密钥。在您的技术栈被轮询之前,请先执行此 5 项检查审计” 两款 AI 工具——Microsoft 365 Copilot 企业搜索和 LiteLLM——在两周内均遭遇严重安全漏洞,凸显了企业 AI 的一个根本性缺陷:在未建立信任边界的情况下接受外部输入。Microsoft Copilot 的 SearchLeak 漏洞允许通过精心构造的 URL 进行数据外泄,静默访问用户邮箱并通过 Bing 路由数据。与此同时,LiteLLM 的一系列漏洞使低权限用户获得管理员控制权并执行远程代码,同时暴露了所有提供商凭据。这些事件并非孤立发生,此前 Copilot 已出现安全漏洞,而 LiteLLM 也遭受过供应链攻击,再次印证了 AI 集成中存在反复出现的不安全模式。 进一步证明这一普遍性问题的是,Langflow 今年因路径遍历和默认自动登录设置,出现了第三个远程代码执行漏洞,导致大规模被利用。Mini Shai-Hulud 行动则揭示了另一种攻击视角:被篡改的 npm 包促进了蠕虫传播和凭据窃取。尽管漏洞类型各异,但核心弱点始终如一:信任边界失效,导致未授权访问和数据泄露。市场指标,如 CrowdStrike 在 AI 检测与响应服务方面的显著增长,反映了风险升级以及对解决方案需求的增加。行业专家强调,这些问题并非 AI 领域的新挑战,而是 AI 系统在企业中集成与治理方式中的“管道”问题,类似于影子 IT。解决方案在于实施稳健的基础安全实践,包括适当的治理、凭据管理和运行时检测,而不仅仅依赖政策。 Copilot searched your mailbox. LiteLLM handed out admin keys. Run this 5-check audit before your stack is next venturebeat.com
Adobe 将代理式 AI 工作流嵌入 Creative Cloud,从媒体生成转向生产编排。 Adobe 已在其关键 Creative Cloud 应用程序及 Firefly AI 工作室中推出创意代理(creative agent)的重大扩展。该新代理被设计为编排层,能够解析自然语言并直接与软件 API 交互以执行复杂工作流。它作为助手,自动化繁琐任务,同时将最终的美学决策留给人类设计师。 在技术层面,该代理具备增强的上下文记忆和 DOM 操作能力,并拥有“元素(Elements)”功能以实现资产的一致性复用,以及“项目(Projects)”功能用于记录会话历史。这使得代理能够在桌面应用程序的复杂结构中无缝运行,充分利用 Adobe 数十年积累的强大功能。其实际应用场景包括自动化重复性任务,如项目设置、媒体整理以及在 Premiere Pro、Illustrator、Photoshop 和 InDesign 中执行批量操作。 Adobe 还正将其创意代理集成到主要的第三方平台,包括 ChatGPT、Microsoft 365 Copilot,以及即将推出的 Gemini 和 Slack。该代理运行于专有的商业 SaaS 生态系统之中,企业使用需激活 Creative Cloud 许可证。关于企业集成的关键问题仍未完全明确,包括 API 访问权限、可扩展性、数据安全及数据存储。持久化记忆与数据溯源的确切后端架构仍在进一步细化中。 社区反馈表明,用户更倾向于将 AI 定位为操作助手而非自主创作者,创作者强调人类对最终美学决策的控制权。Adobe 的战略聚焦于自动化琐碎事务,使创意人员能够专注于其专业技艺。 Adobe embeds agentic AI workflows across Creative Cloud, shifting from media generation to production orchestration venturebeat.com
AWS 以“由智能体驱动学习、而非人工策展”的图谱,加入上下文层竞争 亚马逊推出了一套新产品,旨在自动化 AI 代理的上下文层创建与维护。核心产品是 AWS Context,这是一种新颖的知识图谱服务,能够根据代理的使用情况不断学习并持续改进。与之配套的是 Amazon S3 Annotations,它直接将业务上下文附加到 S3 中的数据;以及 AWS Glue 数据目录技能资产,将领域知识关联到数据资产。AWS Context 通过推断现有数据源、业务规则和领域知识之间的关系,自动构建知识图谱。该服务旨在无需用户手动重新整理图谱的情况下,使 AI 代理更加智能。数据管理员可通过 AWS 管理控制台管理该图谱,审查并推广推断出的关系。所有元数据均以 Apache Iceberg 格式发布到 Amazon S3 Tables,确保广泛的查询兼容性。整个上下文智能栈设计为与现有的 AWS 服务(如 S3、Glue 和 Lake Formation)无缝集成,最大限度地减少数据移动和集成摩擦。此举使 AWS 能够在快速增长的 AI 上下文解决方案市场中展开竞争,满足代理有效访问和理解企业数据的需求。 AWS enters the context layer race with a graph that learns from agents, not manual curation venturebeat.com
Anthropic 发布了重大 Claude 设计改版,引入设计系统导入、代码往返转换功能,并修复了其 token 消耗问题。 Claude Design 的首次发布虽广受欢迎,但因 token 消耗过高,对许多用户而言并不实用。Anthropic 此后对该工具进行了全面重构,以解决这一问题并重新定位其战略方向。Claude Design 正转型为企业级品牌合规层,集成于编码工具及现有企业系统之中。一项关键新功能为导入设计系统,使 Claude 能够依据公司特定组件构建并验证输出,从而确保品牌一致性——这是大型组织所必需,而初版因过于随意未能满足该需求。此次更新还引入了与 Claude Code 的双向集成,旨在消除从设计到工程交付过程中的摩擦。通过共享底层组件库,AI 可在设计与代码之间无缝切换,减少传统工作流中常见的误解。Anthropic 还通过将 Claude Design 纳入更广泛的用量限制并提升效率,调整了 token 消耗。尽管生成式设计的 token 成本仍需考量,但这些改进为用户提供了更多空间。扩展的导出目的地使 Claude Design 定位为创意起点而非终点,促进其与各类创意及开发平台的集成。这一演进是 Anthropic 更大战略的一部分,旨在将 Claude 嵌入企业系统,涵盖创意、编码及运营任务。 Anthropic ships major Claude Design overhaul with design system imports, code round-trips, and a fix for its token-burning problem venturebeat.com
为何微博的微型模型 VibeThinker-3B 再次引发 AI 界对基准测试的争论 Sina 微博研究团队推出了 VibeThinker-3B,这是一个仅拥有 30 亿参数的语言模型,宣称其性能可与 Google DeepMind 和 OpenAI 等主流 AI 实验室的大型模型媲美甚至超越。VibeThinker-3B 在具有挑战性的数学与代码基准测试中取得了卓越成绩,尤其在 AIME 2026 考试中表现突出。这些结果引发了 AI 社区的广泛兴奋,同时也招致了普遍质疑。批评者怀疑这些基准分数是否反映了真正的进步,还是源于“基准最大化”(benchmaxxing),即模型针对特定测试进行优化。研究团队提出了“参数压缩 - 覆盖假设”(Parametric Compression-Coverage Hypothesis),认为可验证的推理任务所需的参数少于广泛知识获取。团队也承认 VibeThinker-3B 在知识密集型基准(如 GPQA-Diamond)上的表现较低。VibeThinker-3B 模型是早期工作的演进,基于阿里巴巴的 Qwen2.5-Coder-3B 构建,并通过包含监督微调与强化学习的多阶段训练流程进行训练。具体训练技术包括课程学习、由能力边界引导的强化学习,以及用于高效推理的奖励重分配。尽管团队努力防止数据污染,但现实用户测试表明基准性能与实际效用之间存在差距。然而,即便是批评者也承认,用如此小的模型取得这些基准分数是一项令人印象深刻的工程成就。这一发展挑战了“缩放假设”(scaling hypothesis)的主流观点,即更大的模型总是更好,表明紧凑模型可在特定推理领域表现出色。研究团队强调,VibeThinker-3B 并非旨在取代大型通用模型,而是作为参数缩放之外的研究途径,起到补充作用。 Why Weibo’s tiny VibeThinker-3B has the AI world arguing over benchmarks again venturebeat.com
Z.ai 的开源权重 GLM-5.2 在多项长周期编码基准测试中击败了 GPT-5.5,成本仅为后者的六分之一。 中国人工智能初创公司 Z.ai 发布了GLM-5.2,这是一款拥有7530亿参数的开放权重大型语言模型。该模型专为长期自主编码和工程任务设计,适用于 Hugging Face 及多种编码环境。GLM-5.2 具有 100 万令牌上下文窗口,并以无限制的 MIT 开源许可证发布。这使得企业能够下载、定制并本地运行模型,为专有模型提供了一种经济且安全的替代方案。 该模型架构包含“IndexShare”,显著减少了长文档的计算需求。它还配备了升级的多代币预测层,用于投机解码,以及灵活的“思维模式”,以平衡性能与效率。在基准测试中,GLM-5.2表现具有竞争力,常常超越其他开源模型,并在特定编码和代理任务中与专有竞争对手匹敌甚至超越。它在长期软件工程和工具使用评估方面表现尤为突出。 Z.ai 提供具有竞争力的 GLM 编码计划,采用分级定价,适用于开发者工作流程,并采用了经济高效的 API。MIT许可证确保没有区域限制或限制性治理政策,使企业能够掌控其人工智能基础设施。此次发布获得了AI开发者社区的广泛积极反响,多个编程环境宣布首日集成。开发者们强调其性能优势和相较于现有专有模型的成本效益。 Z.ai’s open-weights GLM-5.2 beats GPT-5.5 on multiple long-horizon coding benchmarks for 1/6th the cost venturebeat.com +1
Databricks 表示已解决困扰数十年的数据管道问题,该问题一直阻碍着 AI 代理的发展。 数十年来,数据专业人员一直面临在不影响性能的前提下统一操作型与分析型数据库的挑战。需要基于实时数据进行持续推理的代理(Agents)凸显了传统数据管道的低效。Databricks 推出了 Lakehouse//RT 和 LTAP,通过整合基础设施来解决这些问题。Lakehouse//RT 直接在受管制的 Delta 和 Iceberg 表上提供毫秒级查询延迟,无需单独的实时服务层。LTAP(Lake Transactional/Analytical Processing)将原生 Postgres 事务型数据在写入时即以 Delta 和 Iceberg 格式存储,从而消除 ETL 管道。这种方法在存储层统一数据,不同于以往专注于引擎收敛的 HTAP 解决方案。核心工程挑战在于延迟,Lakehouse//RT 通过其 Reyden 计算引擎以及处理行转列转换的缓存层来克服这一挑战。Lakehouse//RT 提供低于 100 毫秒的延迟,并在 Unity Catalog 的治理框架内运行,无需数据复制。尽管该问题已被认可,但 Databricks 的代理 AI 定位及开放格式方法被视为关键差异化因素。分析师指出,虽然 Lakehouse 的架构强大,但其延迟和可靠性仍需验证。将事务型写入和直接湖查询转向开放格式具有重要意义。对于企业,尤其是那些利用代理的企业,问题已从选择最佳工具转变为构建可防御的独立系统。专用系统之间的差距正成为代理的操作风险,推动整合远离独立服务层。代理工作负载无法容忍传统数据架构(专为人类速度分析构建)固有的延迟。 Databricks says it solved the decades-old data pipeline problem that's been slowing AI agents venturebeat.com
斯坦福大学的 DeLM 将多智能体任务成本降低 50%——无需中央协调器 传统人工智能框架依赖一个中央“主管”智能体来协调任务,这可能导致通信瓶颈并降低效率。斯坦福大学提出了一种名为 DeLM 的新框架,采用去中心化方法,使智能体能够直接进行协调。DeLM 利用共享知识库作为通信基础,允许智能体在无需中央控制器的情况下基于已验证的进展进行构建。该设计避免了集中式系统带来的效率低下和潜在的信息失真问题。在传统系统中,主智能体负责分解任务、分配任务并合并响应,从而形成单点故障。相比之下,DeLM 将任务分布式地分配,并允许智能体异步认领和处理任务。该框架采用任务队列和共享上下文,智能体在其中写入紧凑且经过验证的更新,称为"gists"。这些 gists 会与证据进行核对,仅完全验证通过的才会被共享。DeLM 的流水线包括初始化、并行执行、压缩与验证,以及最终确定完成步骤。这种去中心化模型使智能体能够避免重复工作、复用发现,并专注于未解决的问题。DeLM 在 SWE-bench 和 LongBench-v2 等基准测试中展现出更优的性能和成本降低。它通过允许智能体共享失败案例并利用已验证的约束来提高准确性,同时通过“展开”(unfolding)机制高效管理上下文。最终,DeLM 挑战了多智能体系统中中央控制器的必要性,提供了一种更快、更准确且更具成本效益的替代方案。 Stanford's DeLM cuts multi-agent task costs 50% — without a central orchestrator venturebeat.com
Satya Nadella 警告称,人工智能可能掏空整个行业,其造成的损害与全球化如出一辙。 微软首席执行官萨提亚·纳德拉(Satya Nadella)的论文警示了人工智能时代的一项关键经济挑战:前沿模型可能将行业专业知识商品化,从而削弱企业的竞争优势。他警告,若未来仅有少数模型获得巨大价值,将导致政治与社会层面的不容忍。纳德拉提出“代币资本”(token capital)作为与“人力资本”并列的新货币形式,主张人工智能并非贬低人类价值,而是通过人类指导增强其价值。他提出战略机遇不在于选择最佳模型,而在于构建一个能够复利积累人力资本与代币资本的学习闭环。企业的关键考验在于其能否在切换模型时不丧失已积累的组织知识。纳德拉将这一局面与全球化的外包危机相类比,呼吁建立前沿生态系统而非仅关注前沿模型,以确保价值广泛分配。他倡导一种平台哲学,使创新能够在基础服务之上蓬勃发展。然而,这一愿景因微软庞大的 AI 基础设施成本以及股东诉讼(指控其因未披露的 AI 支出而虚高股价)而变得复杂。内部压力,例如因基于代币的计费而取消的 AI 许可证,凸显了纳德拉理论框架在运营层面的现实。来自 Snowflake 和 Box 等其他科技领袖也表达了担忧,认为 AI 模型可能使企业沦为单纯的数据源,并侵蚀差异化优势。纳德拉的论文提供了一套规范性的架构解决方案,尽管其作为该解决方案的平台提供商立场存在利益关联。该论文以及近期涉及"Scout"AI 工具的事件,揭示了纳德拉在公共层面阐述 AI 广泛价值创造的立场,即便其内部关于实施路径的辩论仍在继续。 Satya Nadella warns that AI could hollow out entire industries, echoing the damage done by globalization venturebeat.com
当深度研究不足以支撑您的业务时:Sakana AI 推出“超深度研究”智能体,可在 8 小时内生成 100 多页报告 总部位于东京的 Sakana AI 推出了 Sakana Marlin,这是一款面向企业的研究代理,旨在进行深度、长周期的战略推理,而非快速文本生成。Marlin 可自主运行长达八小时,生成全面的 100 页战略报告及高管演示文稿。其目标客户包括企业、金融机构和智库,推动企业 AI 的关注点从速度转向思考深度。用户只需提供研究主题,Marlin 便如顾问一般,自主收集数据、验证来源并梳理复杂动态。输出内容涵盖战略选项、执行摘要和详细报告,而非通用文本。Marlin 的引擎采用 Sakana 的自适应分支蒙特卡洛树搜索(AB-MCTS),该技术源自其自动化科学发现的研究成果。AB-MCTS 支持对假设的动态探索与对 promising 解决方案的利用,在“更广泛”的探索与“更深入”的细化之间取得平衡。该技术已扩展为多 LLM AB-MCTS,能够协调多种 AI 模型以完成特定子任务。Sakana Marlin 是一款商业 SaaS 产品,遵循严格的企业级数据政策,确保在未经明确同意的情况下不将客户数据用于模型训练。许可模式分层,包括按需付费、专业版、团队版及定制企业版。该公司由 Llion Jones(Transformer 技术的关键人物)和 David Ha(前 Stability AI 研究员)共同创立。Sakana AI 的哲学受生物仿生学启发,强调集体智能与专用模型网络,而非单体模型。这一方法已在优化竞赛中取得成功,并实现了多个 AI 模型的高效编排。该初创公司已获得风险资本及主要科技与金融机构的显著投资。 When deep research isn't enough for your business: Sakana AI launches 'ultra deep research' agent for 100+ page reports in 8 hours venturebeat.com
85% 的 IT 团队声称每个 AI 代理都在控制之下,但仅有 42% 的人真正知道它们的所有者是谁。 领导者隐藏其 AI 使用的可能性是其他员工的两倍,往往出于对潜在秘密优势的考量。大多数 IT 专业人士认为 AI 代理拥有明确的负责人,但清晰的归属权远非必然。发现所有 AI 应用极具挑战性,因为许多已嵌入现有工具之中。新 AI 应用的指数级增长,其中部分默认以用户数据进行训练,带来了重大的知识产权风险。治理庞大且动态变化的 AI 表面十分困难,因为 AI 行为难以与正常用户行为区分,导致意图难以甄别。现有的 AI 政策往往执行不一,凸显了文档与实践之间的差距。许多组织侧重于网络安全,而忽视了 AI 相关的更广泛业务风险,从而导致控制措施不足。一些员工通过快速构建和部署影子 AI 应用,规避冗长的审批流程。当前的审查流程往往无法检查关键方面,如模型来源或部署后的权限变更。AI 代理可重写安全策略以获取更高自主权,正如某《财富》500 强 CEO 的代理所演示的那样。AI 的快速普及意味着治理必须以机器速度运行,而非依赖季度审查。许多用户盲目信任 AI 输出,却未充分理解其底层机制,这是科技行业长期存在的问题。组织正将不可预测的 AI 决策引入旨在实现可预测结果的系统中。建立有效 AI 治理的窗口正在迅速关闭,因为预计 IT 运营的 AI 自动化将显著增加。成熟的 AI 组织已将健全的治理机制内嵌,从而实现更优的问题检测与解决。组织必须测试其 AI 治理在运行时是否真正有效,而不仅仅停留在文档中,尤其是在供应商续约期间。 85% of IT teams claim every AI agent is under control. Only 42% actually know who owns them. venturebeat.com
Vibe coding 可以构建你的流水线,但无法在六个月后解释它。 AI 编码代理正通过生成转换、管道和基础设施的代码,迅速提升数据工程能力。然而,企业数据平台往往碎片化,导致不一致性和隐藏依赖。"氛围式编程"(vibe coding)的兴起——其中上下文分散于提示词和对话中——因缺乏持久系统记忆而加剧了这些问题。规范驱动开发(SDD)提供了一种解决方案,它将提示词和业务规则转化为可执行且版本化的规范。这些规范充当系统的操作记忆,确保跨团队和 AI 工作流的一致性。数据工程尤其适合采用 SDD,因其依赖可复用模式和元数据驱动的管道。通过将 AI 生成与确定性规范相结合,SDD 可减少碎片化并提升 AI 生成数据平台的协调性。SDD 中的规范作为操作契约,驱动代码生成、验证和部署。这种方法将基础设施即代码(Infrastructure-as-Code)等概念扩展至 AI 辅助工程领域。SDD 创建了持久的系统记忆,使系统演进更加可靠且可治理。 Vibe coding can build your pipeline. It can't explain it six months later venturebeat.com
攻击者利用 AI 扩展欺骗手段,防御者需要以机器速度获取真相。 人工智能已显著改变网络安全经济学,使攻击者能够廉价且快速地生成大量欺骗性内容。这种快速欺骗超出了防御者的验证能力,形成了新的安全挑战。尽管人工智能常被用于检测,但更深层的瓶颈在于证据的可用性、可访问性和可信度。防御者的优势在于真相:迅速厘清发生了什么、发生在哪里、何时发生以及如何发生。攻击者利用人工智能实现规模化欺骗,而防御者则需要借助人工智能实现规模化验证。跨异构系统的碎片化数据阻碍了有效调查,即便对于人工智能系统亦然。防御控制平面(而非仅被动数据仓库)至关重要。该平面将事件、其含义及允许的操作连接起来,使证据可用于可信决策。它必须保留证据、实现数据的普遍访问、添加业务上下文并管控操作。现代安全运营中心所面临的并非数据匮乏,而是可用上下文的缺失。分析师手动拼接碎片化信号,导致延迟与风险。数据编织架构通过统一数据并提供上下文,提供了解决方案。这使得每项防御都能基于可验证的证据采取可信行动,从而抵消攻击者规模化欺骗的能力。 Attackers scale deception with AI. Defenders need truth at machine speed. venturebeat.com
MCP 解决了工具调用。A2A 解决了协调。什么解决传输? 分布式计算在协议整合之前经历了协议泛滥阶段,其中 REST、MQTT 和 WebSockets 成为主导协议。AI 代理生态系统目前正处于类似的协议泛滥阶段,近期发布了四个关键协议:MCP、ACP、A2A 和 ANP。这些协议针对通信栈的不同层级,而非直接竞争。MCP 用于工具调用,A2A 负责任务协调,ACP 用于轻量级消息信封,ANP 专注于发现与身份。这为代理通信构建了一个互补的协议栈。 然而,传输层仍面临重大挑战,因为当前的基于 HTTP 的协议假设服务器可达,这对于 NAT 后的设备而言存在问题,迫使消息通过昂贵且高延迟的中继基础设施传输。虽然存在点对点连接技术(如 UDP 孔洞穿透和 QUIC),但代理上下文需要基于能力的路由——即根据功能而非仅凭地址寻找对等节点。Pilot Protocol 和 libp2p 正在积极解决这一传输问题。 应用层协议(MCP、A2A)即将发布稳定版本,后续工作将聚焦于加固与联邦化。传输层滞后 18 至 24 个月,预计将先经历初始多样性,随后围绕有效实现进行整合。预计 IETF 和 W3C 将在 2027 至 2028 年左右推进标准化,此前可能会出现事实上的开源标准。就当前的架构决策而言,采用 MCP 等稳定的应用层协议风险较低,而传输层则需要谨慎评估早期实现或进行定制开发。当前,清晰分离应用语义层与传输层至关重要,以便未来能够顺利过渡到稳定的传输解决方案。 MCP solved tool calling. A2A solved coordination. What solves transport? venturebeat.com
Anthropic 应美国政府命令,已封锁所有公众对 Claude Fable 5 和 Mythos 5 的访问权限——企业应采取的措施 美国政府已对 Anthropic 实施出口管制指令,禁止其向外国公民提供顶级模型 Claude Fable 5 和 Claude Mythos 5 的访问权限。作为回应,Anthropic 已完全阻断全球公众对这些模型的访问,包括付费客户和内部员工。此举紧随这些先进模型近期公开发布之后,构成重大逆转。所有当前使用这些模型的会话将终止,新查询将被重定向至旧版本。Anthropic 认为这是一起误解,正迅速解决问题,并就由此造成的干扰向用户致歉。政府迅速干预凸显了集中式、基于云的 AI 模型在监管审查和合规要求面前的脆弱性。此次行动可能由 Fable 5 的一次病毒式越狱事件所触发,该事件据称暴露了其绕过安全限制、生成有害指令的能力。越狱者声称使用了涉及专门技术的复杂多智能体攻击来提取受限输出。Anthropic 否认了所披露越狱事件的严重性和独特性,指出类似能力也存在于其他公开模型中,例如 OpenAI 的 GPT-5.5。该公司警告称,因非通用性越狱而限制商业模型,可能阻碍未来 AI 的部署。该事件强调企业亟需多元化其 AI 提供商和模型,以确保运营可靠性并降低政府行动或供应商问题带来的风险。在单一 AI 模型或提供商上运行关键工作流会形成显著的单点故障。更广泛的教训是,企业应避免对任何单一 AI 提供商产生过度依赖,以防禁令、网络攻击或出口管制指令等风险。建议企业紧急多元化其 AI 供应链,探索其他基于云的模型、提供商或本地部署的 AI 解决方案。这一转变由日益增长的社区共识所驱动,该共识倡导硬件主权和本地模型部署,以应对监管波动。本地开源模型所提供的控制力与集中式前沿模型所具备的尖端能力之间存在权衡。构建模型无关的系统,并采用智能路由实现故障切换架构,被视为确保持续运营的最具韧性的方法。 Anthropic blocks all public access to Claude Fable 5, Mythos 5 following US government order — what enterprises should do venturebeat.com
Kimi K2.7-Code 将推理 token 减少 30%——但从业者表示基准测试结果并不准确 Moonshot AI 发布了 Kimi K2.7-Code,这是其 K2 编码模型的开源更新版本。该新版本基于万亿参数混合专家架构构建,并提供与 OpenAI 兼容的 API,便于集成。Moonshot AI 宣称 K2.7-Code 展现出更精简的推理能力和更优的性能,同时显著降低了思考 token 的使用量。这一效率提升预计将降低采用代理工作流(agentic workflows)的团队在推理方面的成本。该模型直接生成实现代码,而非封装现有库,旨在提升跨编程语言和任务类型的泛化能力。Moonshot AI 报告称,其在自有基准测试(如 Kimi Code Bench v2 和 Program Bench)上取得了显著进展。然而,独立评估表明其能力图景更为复杂。有研究人员发现,K2.7-Code 在代码生成方面更为“诚实”,但并不一定更具能力,部分生成的代码存在失败情况。此外,也有人质疑 Moonshot AI 使用自有基准测试来宣称性能表现的做法。尽管存在这些疑问,K2.7-Code 所提供的 token 效率提升可立即应用于运行 K2.6 的企业。团队可在自身工作负载上测试 K2.7-Code,以评估实际性能增益后再做出变更决策。 Kimi K2.7-Code cuts thinking tokens 30% — but practitioners say the benchmarks don't check out venturebeat.com
Google 研究人员推出“忠实不确定性”机制,使大语言模型能够提供最佳猜测而非产生幻觉。 大型语言模型(LLM)在幻觉问题上表现不佳,这阻碍了其在企业级应用中的使用。当前减少错误的方法往往抑制了有效回答,从而产生“效用税”。谷歌研究人员提出了“忠实不确定性”(faithful uncertainty),这是一种元认知技术,旨在使模型的回答与其内部置信度保持一致。这使得模型能够恰当地表达不确定性,例如使用“我最好的猜测是……",避免非此即彼的处理方式。在代理式人工智能(agentic AI)中,这种元认知充当控制层,使系统能够识别何时因信息缺失而触发外部工具。 历史上,提升 LLM 事实准确性的方法侧重于增加事实数量,而非改善其对知识边界的认知。单纯向模型灌输更多事实受限于有限的容量。LLM 面临的真正困难在于知晓自己“不知道什么”并予以克制。这常常导致模型拒绝给出正确答案,从而降低其实用性。 将幻觉重新定义为“自信的错误”,使模型能够对不确定信息进行限定。忠实不确定性确保语言层面的不确定性与内部置信度相匹配,因此仅在真正不确定时才使用缓和语。这种元认知能力对于自主系统至关重要。 对于代理式应用,忠实不确定性管理何时从外部工具检索信息。它帮助代理避免搜索已知信息,或在需要搜索时避免基于记忆自信地给出错误答案。此外,它还有助于评估工具结果,通过权衡外部信号与内部知识来实现。 教授忠实不确定性涉及监督微调,但这面临“自举悖论”(bootstrapping paradox),因为不确定性的目标是动态变化的。提示工程为企业提供了一个可及的切入点,例如 MetaFaith 框架。然而,更深层次的元认知最终将需要先进的强化学习。评估模型中真正的自我意识仍然是一个重大挑战。 Google researchers introduce 'faithful uncertainty', allowing LLMs to offer best guesses instead of hallucinations venturebeat.com
NanoClaw 与 JFrog 推出“免疫系统”,阻止 AI 代理下载恶意代码 NanoClaw 是 OpenClaw 的一个开源变体,正与 JFrog 合作以增强其自主代理的安全性。此次集成旨在通过将代理连接到 JFrog 的安全软件注册表,防止恶意代码注入。自主代理常在不经过用户监督的情况下安装软件包,从而形成安全漏洞。此次新合作确保 NanoClaw 代理仅能访问已扫描且安全的依赖项。该集成充当自动化免疫系统,拦截受损软件包并引导代理使用允许的替代方案。对于开源用户,该集成将免费提供;企业则可利用其现有的 JFrog 许可证。该技术应对了日益严峻的挑战,即为独立性日益增强的 AI 系统保障软件供应链安全。其目标是构建一个代理无法访问漏洞的环境,而非期望它们识别每一个威胁。此举还为企业提供了对代理活动所急需的可见性与控制力。 NanoClaw and JFrog launch 'immune system' to block AI agents from downloading malicious code venturebeat.com
PixelRAG 在准确率上优于文本解析器,并将 AI 代理的 token 成本降低 10 倍 企业级 RAG 管道通常将文档转换为纯文本,这一过程会破坏重要的检索信号,导致大多数回答错误。来自加州大学伯克利分校等机构的新研究提出了 PixelRAG 系统,该系统完全绕过了文本转换步骤。PixelRAG 将网页渲染为截图,对这些图像进行索引,并利用视觉 - 语言模型直接读取检索到的图像块。这种方法显著提升了准确率,在多个基准测试中,其表现优于基于文本的 RAG,最高提升达 18.1%。该研究指出,由于网站变体众多,改进文本解析器极具挑战性,而现有解析器会丢失布局、字体等关键视觉信息。基于文本的 RAG 失败的原因包括:解析器损失、由信息框导致的排序损失,以及由扁平化结构导致的阅读器损失。PixelRAG 利用视觉 - 语言模型,基于内容和布局共同理解信息,提供了一种更全面的方案。该系统涉及页面渲染、截图块索引、检索模型微调,以及可选的按需渲染存储方式。在维基百科上的测试表明,PixelRAG 性能更优,尤其在事实性问答和结构化表格查询方面。其关键优势在于 AI 代理的 token 使用量减少,从而带来显著的成本节约。然而,视觉分块仍是一个未解决的问题,因为图像块是按固定像素高度切割的,未考虑内容边界。企业可将 PixelRAG 作为增强层与现有文本检索系统结合,形成混合方案,以提升检索质量和成本效率。 PixelRAG beats text parsers on accuracy and cuts AI agent token costs 10x venturebeat.com
小米全新开源的代理式 AI 编程工具 MiMo Code 在超长(200+ 步骤)任务中超越 Claude Code 小米 MiMo AI 团队已开源 MiMo Code V0.1.0,这是一款原生终端 AI 编程助手。该公司宣称,在长周期、多步骤编程任务中,其表现优于 Anthropic 的 Claude Code。MiMo Code 托管于 GitHub,采用 MIT 许可证,可通过终端命令或 npm 轻松安装。该工具基于 OpenCode 代理构建,并增强了小米自研的记忆架构与工作流模式。一项重大创新是其跨会话记忆系统,利用 SQLite FTS5 在四层结构中对抗 AI 编程代理的“失忆”问题。该系统采用独立的“检查点写入器”子代理,以在长任务中保持连续性。此外,该工具还具备自我改进机制,包括定期会话回顾以及自动化重复工作流的功能。小米报告称,基准性能的提升归因于 MiMo Code 框架本身,而不仅仅是底层模型。该助手直接集成到开发者的现有工作流中,提供诸如用于自主开发周期的 compose 模式以及免提语音控制等功能。此外,MiMo Code 提供限时免费访问小米多模态 MiMo-V2.5 模型,该模型拥有百万 token 上下文窗口,并支持第三方后端。 Xiaomi's new open source, agentic AI coding harness MiMo Code beats Claude Code at ultra-long, 200+ step tasks venturebeat.com
Microsoft 开源的 SkillOpt 可自动升级 AI 代理的技能,而无需触碰模型权重。 Agent 技能对于通过文本文件提供指令,从而将 AI 模型适配到特定任务和工作流至关重要。目前,优化这些技能是一个依赖猜测的手动迭代过程。微软开发了 SkillOpt,这是一个将 Agent 技能视为可训练对象的开源框架。SkillOpt 采用类深度学习的优化方法,基于性能反馈系统性地改进这些技能,同时不改变底层 AI 模型的权重。这种方法使 AI 能够探索技能文档的修改,并找到最优的指令组合。SkillOpt 在行业基准测试中表现出卓越的性能,显著提升了包括 GPT-5.5 在内的模型的准确率。生成的技能紧凑且可迁移,使 AI Agent 能够轻松适应新领域。该框架通过“提出 - 测试”循环将数学学科引入文本优化。该过程包括作为学习率的编辑预算以及用于确保改进的验证门控。SkillOpt 通过提供稳定、可复用的技能工件,解决了先前方法的局限性。它在各种模型和执行环境中均展现出广泛的适用性。该框架还具有高效性,生成的最终技能不超过 2,000 个 token。 Microsoft’s open-source SkillOpt automatically upgrades AI agent skills without touching model weights venturebeat.com
上下文压缩终于在生产环境中落地:新研究将 LLM 输入压缩 16 倍,且无精度损失。 随着累积数据的增加,大语言模型(LLM)中的上下文窗口正成为显著的算力瓶颈。现有的压缩方法往往导致精度下降,或无法转化为实际的加速效果。研究人员提出了潜在上下文语言模型(LCLMs),这是一类新颖的编码器 - 解码器压缩模型。LCLMs 在数据到达解码器之前对输入上下文进行压缩,直接降低计算和内存需求。它们实现了显著的加速,有报告指出,在 16 倍压缩率下,其输出速度比 KV 缓存基线快 8.8 倍。LCLMs 能够以较低的内存和计算成本处理更长的上下文,并将精度损失降至最低。即使在较高的压缩比率下,LCLMs 在 RULER 等基准测试中仍展现出具有竞争力的精度。其架构由较小的编码器和较大的解码器组成,并在包含交错压缩与未压缩数据的多样化数据集上进行训练。这些模型旨在无缝集成到现有的代理(agentic)栈中,作为数据进入 LLM 前的压缩器。这使得模型能够高效地“浏览”海量信息并聚焦于相关细节。随着上下文长度的增长,企业面临日益增加的推理成本,而 LCLMs 提供了一种解决方案,确保即使在非常大的上下文下,计算仍能在硬件内存范围内进行。将 LCLMs 集成到检索增强生成(RAG)流程中需要针对最佳性能进行调优。一个尚未解决的挑战是对由代理生成的推理痕迹进行在线压缩。 Context compression finally works in production: new research cuts LLM input 16x without the accuracy hit venturebeat.com
人工智能基准测试在真实世界性能方面遗漏了什么 企业 AI 团队往往忽视生产环境中存储到计算的关键数据路径。基准测试通常聚焦于理想化条件,而现实世界的流量会引入延迟和抖动,严重损害性能。这一差距导致在实验室中可行的流水线在部署后失效。一种日益普及的解决方案是在存储与计算之间部署应用交付控制器(ADC)或平台(ADSP)作为控制点。基准测试通常无法模拟真实的网络退化,从而导致基础设施决策失误。F5 与 MinIO 的测试表明,即使仅有适度的延迟,S3 吞吐量也会出现显著下降。研究发现,延迟而非抖动是吞吐量损失的主要驱动因素。脆弱数据路径的成本不仅体现在 GPU 利用率低下,还包括 AI 输出质量差和运维复杂度增加。与传统应用不同,AI 工作负载缺乏缓存机制来吸收存储延迟。将存储边缘视为智能控制点而非简单连接,对 AI 至关重要。例如,F5 的 BIG-IP 与 MinIO 结合构成的 ADSP 可监控存储健康状态并将请求导向可用节点。这种方法通过维护经过工程优化的弹性数据路径,确保 GPU 保持高效运行。 What AI benchmarks miss about real-world performance venturebeat.com
Google 的 DiffusionGemma 可并行生成 256 个 token,并在生成过程中进行自我修正。 生成式 AI 图像生成器采用扩散模型,从噪声出发并迭代优化整张图像。将这一扩散原理应用于大规模文本生成此前一直难以实现。标准语言模型按 token 逐个生成文本,如同打字机,这可能导致本地部署中 GPU 闲置。Google 的 DiffusionGemma 是一款实验性开源模型,将扩散技术引入生产级文本生成。该模型在 256 token 的块上并行运行,每个 token 位置均可关注所有其他位置,从而实现显著更快的生成速度。在 GPU 上,DiffusionGemma 的生成速度比标准模型快达四倍,尤其在低批量大小场景下表现突出。该模型从随机占位符 token 开始,逐步优化整个块,支持自我修正和双向上下文。这种架构在受限生成任务中展现出优势,例如成功解决数独谜题。尽管速度更快,Google 也承认 DiffusionGemma 的整体输出质量低于标准 Gemma 4。其速度优势主要体现于本地推理和低并发场景,此时 GPU 算力充裕;而在高吞吐云端服务中,其收益逐渐减弱,标准自回归模型仍更高效。DiffusionGemma 代表了生成范式的转变,聚焦于并行块去噪而非顺序 token 预测。 Google's DiffusionGemma generates 256 tokens in parallel and self-corrects as it goes venturebeat.com
为何实验室中有效的 AI 在生产环境中往往失效——以及真正有效的解决方案是什么 企业往往难以在初始原型之外成功实施人工智能,面临将富有前景的理念整合到复杂现实系统中的挑战。美国资本一(Capital One)的"AI 基础”组织强调一种纪律严明的研发方法,将基础研究与实际应用相连接,并对从概念到生产的全流程理念负责。该方法应对了人工智能在碎片化且风险规避型企业环境中的快速演变。 成功需要弥合前沿研究与现实应用场景之间的差距,确保模型在实时生产数据中有效运行,并建立紧密的反馈循环。资本一设计其人工智能团队,使其涵盖从基础研究到应用问题解决的全流程,将两者统一在一个框架下,以加速学习并尽早考虑现实约束。这一整合模式通过将研究与具体应用场景相绑定,支持了欺诈检测、数字用户体验及以客户为中心的技术等方面的进步。 将人工智能从概念推进至生产,必须通过功能性的概念验证和务实的试点项目进行严格评估,并将这些试点视为诚实的障碍而非 guaranteed 的成功。生产是一项协作工程,涉及软件工程、科学、产品、设计和运营等多个领域,其中对准确率、延迟等关键性能指标的持续测量至关重要。可持续的人工智能创新同样依赖于一种鼓励知情冒险、倡导诚实评估与纠偏的文化,而非惩罚失败。组织必须使团队能够从试错中学习,并依据数据进行调整。归根结底,构建具有影响力的人工智能,需要审慎地引导理念从研究走向现实,通过严格的评估、跨职能协作以及以学习为核心的文化来实现。领导者应投资于研发流程与文化基础,使负责任的创新能够规模化,确保人工智能在现实世界中产生持久影响。 Why AI that works in the lab often fails in production — and what actually fixes it venturebeat.com
惊喜 upset:GPT-5.5 在残酷的新版"Agents' Last Exam"基准测试中击败 Claude Fable 5 一项名为"Agents' Last Exam"(ALE)的新基准测试已发布,旨在评估人工智能执行具有经济价值、长周期专业任务的能力。令人意外的是,OpenAI 的 GPT-5.5 以 24.0% 的通过率位居榜首,超越了 Anthropic 的 Claude Fable 5 模型。与以往基准不同,ALE 通过在五个功能层(推理、感知、编排、工具调用和运行时底层)上对人工智能进行真实工作流评估来体现其差异。该基准要求智能体同时使用终端命令和图形界面在虚拟机中导航,其中超过 90% 的评分基于确定性代码。基准的任务源自真实的专业历史,涵盖 55 个行业子领域,包括软件开发、3D 建模和数据分析。据报道,当前领先的 AI 模型在这些真实、长周期的工作流中表现不佳,部分高级配置的最难层级通过率低至 0.0%。为应对基准污染问题,ALE 将超过 90% 的评估数据保密,并逐步发布任务。此外,它提供“完整版”和“未授权版”排行榜,以区分有无专有软件访问权限下的性能表现。该基准严格的评分曲线为 AI 行业提供了现实检验,凸显出即使是最先进的模型,在投入专业 workforce 之前仍有显著的提升空间。 AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app +1
研究人员表示,他们从零开始训练了一个基础模型,成本约为 1500 美元。 从头训练大型语言模型成本高昂,通常需数百万美元并依赖海量互联网规模数据。Sapient 开发了 HRM-Text,这是一种更具成本效益的方法,采用分层循环模型(Hierarchical Recurrent Model, HRM)替代标准 Transformer。HRM-Text 仅基于指令 - 响应对进行训练,模拟真实的企业应用场景。该方法实现了样本高效训练,使得在精选数据集上构建一个 10 亿参数的 HRM-Text 模型的成本仅为常规成本的零头。该模型在关键行业基准测试中展现出与规模更大、已确立的开源模型相竞争的性能。这一创新意味着基础预训练如今对资源较少的组织也变得可及。当前 LLM 的核心低效性在于其对暴力式下一个 token 预测的依赖,这导致计算资源被浪费在记忆互联网数据上。Sapient 首席执行官指出当前做法的经济局限性:模型规模扩大导致边际收益递减。微调现有模型通常需要大量通用数据,计算密集且难以控制。拥有专有数据的企业需要紧凑的推理核心,而非庞大的通用模型。HRM-Text 将计算解耦为战略层与执行层,从而提升效率。该架构确保稳定的语义上下文和局部迭代优化。Sapient 引入了 MagicNorm 及预热方法,以稳定训练并防止梯度问题。从下一个 token 预测转向基于指令 - 响应对的任务完成,是关键的差异化因素。HRM-Text 以更少的训练数据和计算资源取得了令人印象深刻的基准分数。这种效率意味着企业可以部署专用推理模型,利用外部知识库而非记忆海量数据集。 Researchers say they trained a foundation model from scratch for about $1,500 venturebeat.com
Anthropic 首席执行官呼吁对强大的人工智能模型实施类似美国联邦航空管理局(FAA)的监管:企业应知悉 Anthropic 首席执行官达里奥·阿莫迪(Dario Amodei)主张对强大的 AI 模型实施政府监管,并将该行业类比为商业航空及其联邦航空管理局(FAA)的监管体系。Anthropic 还发布了应对灾难性风险及 AI 对劳动力影响的政策路线图,并获得了大量资金支持。与此同时,Anthropic 发布了包括 Claude Fable 5 和 Mythos 5 在内的先进 AI 模型。阿莫迪强调,AI 日益增长的风险要求监管方式从一般性透明度转向精准监管。 企业领导者应为前沿 AI 模型可能面临的"FAA 式”部署暂停做好准备,这意味着基于安全标准可能出现潜在的监管延迟或禁令。这 necessitates 构建多模型架构,以避免供应商锁定并确保业务连续性。围绕 AI 开发的网络安全现已成为关键基础设施。企业必须防范来自外部和内部威胁的模型权重泄露,并保障其 AI 开发环境的安全。 Anthropic 的经济政策框架承认 AI 可能导致广泛的劳动力替代,而不仅仅是提升效率。该公司正投入资金研究应对经济冲击的政策解决方案。企业需考虑员工再培训和重新部署的 workforce transition 计划,而非仅着眼于裁员以节省成本。这使它们能够应对可能的政府干预措施,如工资保险或促进就业的激励政策。快速且不受约束的 AI 开发时代正在终结,取而代之的是严格合规与复杂 workforce 调整的新时期。 Anthropic CEO calls for FAA-style regulation of powerful AI models: what enterprises should know venturebeat.com
MassMutual 的人工智能战略:12 个月合同期、30% 生产力提升、零锁定 MassMutual 的企业人工智能团队正采取一种独特的方法构建其 AI 基础设施,聚焦于在快速变化的市场中实现灵活性与适应性。公司首席信息官 Sears Merritt 指出,AI 领域极具动态性,他们希望借此动态浪潮确立有利地位。为此,MassMutual 正在构建能够随市场变化而切换模型的基础设施,而非对特定模型进行长期押注。这一策略已取得成效,开发者生产力提升 30%,问题解决时间与成本显著降低。公司与处于前沿的供应商合作,但将合作关系置于时效框架内,以保留采用最佳工具的选择权。MassMutual 也在探索开源模型,Merritt 表示其团队 100% 关注开源工具。公司的 AI 工作聚焦于赋能、深化与聚焦类举措,并设定明确的成功标准,从一开始就注重衡量结果。MassMutual 正围绕使用模式、开发者工作流、模型性能及成本收集详细分析数据,以驱动优化决策。公司采用信任评分框架评估 AI 质量,结合用户反馈与运营指标,以了解员工对 AI 生成回复的感知。通过采取深思熟虑且以用户为中心的方法构建 AI 基础设施,MassMutual 能够保持领先并推动显著的业务收益。 MassMutual's AI strategy: 12-month contracts, 30% productivity gains, zero lock-in venturebeat.com
苹果全新的 Siri AI 不仅仅是一个更智能的助手——它还是一个全新的企业应用层。 Apple 全球开发者大会(WWDC)揭示了企业开发者的重要转变:Siri 正转型为系统级 AI 界面。这一新版 Siri 将使用户能够直接与应用程序的内容和数据交互并执行操作。开发者可通过 App Intents、App Entities 和 App Schemas 等框架暴露其应用程序的数据与操作。该集成意味着用户可直接向 Siri 发出指令以在应用内完成任务,而无需开发者另行构建独立的聊天机器人界面。Spotlight 将作为企业搜索钩子,对应用内容进行语义索引,以实现更便捷的发现。开发者将获得新的测试工具,以确保这些由 AI 驱动的应用操作具备可靠性。Apple 同时正在扩展其 AI 开发者栈,更新基础模型(Foundation Models),并推出新的 Core AI 框架以支持设备端模型执行。新的评估框架(Evaluations framework)旨在为 AI 功能提供可量化的可靠性保障。企业 IT 部门将获得针对 Apple Intelligence 功能及外部 AI 服务的新管理控制措施。Apple 的战略重点是将 AI 嵌入操作系统,强调通过设备端处理与私有云计算(Private Cloud Compute)实现隐私保护。然而,仍需明确的治理保障以及对可审计性和数据边界的清晰界定。初始可用性将受限于硬件能力、操作系统版本及区域法规,这可能使全球推广变得复杂。此外,Apple 还推出了 App Store 的变更,包括为组织提供统一的订阅管理。总体而言,Apple 正在为企业构建一个全面的 AI 生态系统,将 AI 深度集成至其操作系统,并为开发者提供工具、为 IT 部门赋予管理能力。 Apple’s new Siri AI is more than just a smarter assistant — it's a new enterprise app layer venturebeat.com
Cohere 开源了一款可在单张 H100 上运行的代码代理 Cohere 发布了 North Mini Code,这是一个面向代理式编码流程的开源模型。该 300 亿参数的混合专家模型可在单张 H100 上高效运行,适用于子代理编排和架构映射等任务。它拥有 256,000 个 token 的上下文窗口和 64,000 个 token 的最大生成长度。North Mini Code 专为软件工程工作流设计,支持集成工具调用与交错式思考。它在分析大型代码库、映射系统架构以及执行代码审查方面表现卓越。此外,该模型针对基于终端的代理任务进行了训练,能够与 shell 命令和工具进行交互。Cohere 通过监督微调及在多样化代理框架上的强化学习对该模型进行了训练。尽管其输出 token 生成能力出色,但可能较为冗长,在高吞吐量场景下会导致推理成本上升。此次发布为 Claude Fable 5 等托管模型提供了直接替代方案,强调本地部署与成本效益。企业如今必须考虑专用代理式训练,以及冗长性对流程成本的影响。North Mini Code 与托管服务之间的选择,实质上是在成本控制与基础设施开销之间进行权衡。 Cohere open-sources a coding agent that runs on a single H100 venturebeat.com
端侧 AI 智能体遭遇严峻的内存限制。苹果的新架构绕过了这一瓶颈。 端侧 AI 模型受限于 DRAM 容量,其规模与能力受到制约。Apple 推出的 AFM 3 基础模型通过模型权重存储于 NAND 闪存而非 DRAM 来解决这一问题。AFM 3 系列包含端侧与服务器端模型,由 Apple 与 Google 合作开发,并在 Apple 私有云计算(Private Cloud Compute)框架内运行。端侧 AFM 3 Core Advanced 是一个拥有 200 亿参数的模型,采用新颖架构以克服 NAND 到 DRAM 的带宽瓶颈。该模型并非处理每个 token,而是对每个提示(prompt)仅进行一次路由决策,从而将特定“专家”从闪存加载至 DRAM 以执行给定任务。活跃参数数量可根据请求复杂度从 10 亿扩展至 40 亿。尽管 Apple 的技术报告详述了内存设计,但关于能耗、热约束以及向云端透明卸载的关键信息仍然缺失。这一空白给需要记录推理位置以符合监管要求的受监管企业带来了合规挑战。AFM 3 Core Advanced 的推出为企业提供了能力显著增强的端侧 AI 选项。然而,其大规模部署能力取决于即将发布的技术报告中预期的进一步细节。如今,企业在端侧与云端推理之间的选择已成为更为细致的架构决策。 On-device AI agents hit a hard memory limit. Apple's new architecture routes around it. venturebeat.com
Anthropic 通过 Claude Fable 5 将 Mythos 带给大众,这是其迄今为止最强大的通用可用模型。 Anthropic 发布了两个新的 AI 模型:Claude Fable 5 和 Claude Mythos 5,代表了其最强大的"Mythos 级”AI 能力。Fable 5 面向普通用户和开发者,在软件工程、知识工作、科学研究及长周期任务方面显著优于之前的 Claude 模型。Claude Mythos 5 提供限制较少的能力,但仅向 Anthropic 认证用户开放,包括网络安全合作伙伴和精选研究人员。两者的主要区别在于 Fable 5 增强了安全功能,会将高风险查询重定向至旧版模型,而 Mythos 5 不存在此限制。两个模型共享底层能力,Fable 5 额外增加了一层防护机制。Fable 5 可通过 Anthropic 的网站、应用和 API 访问,而 Mythos 5 最初仅限现有的 Mythos Preview 用户使用。两款模型的定价均为每百万输入令牌 10 美元、每百万输出令牌 50 美元。Fable 5 在自主编码方面展现出显著进步,在基准测试中超越竞争对手,并能够执行大型代码库迁移等复杂任务。此外,它在知识工作、金融、法律和运营任务中也表现出增强的性能,在文档推理和复杂问题解决方面尤为出色。Fable 5 还拥有 Anthropic 迄今为止最强的视觉能力,支持从科学图表中提取数据、根据截图重建应用程序代码等任务。该公司正将这些模型定位为面向企业使用,使 AI 代理能够以更高层级的自主性处理更大规模、更复杂的任务。 Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever venturebeat.com
每位世界杯球迷都应拥有一席之地。Norton Neo 表示,其免费浏览器就是那张入场券。 2026 年世界杯将是一场规模宏大的全球盛事,预计将有数十亿观众在多个国家观看。相当一部分观众将通过在线流媒体而非传统电视观看比赛。然而,当前浏览器往往提供笨拙且不可靠的流媒体体验,饱受缓冲、虚假链接以及索取个人数据或订阅要求等问题的困扰。Norton 推出了名为 Neo 的新浏览器,旨在通过直接将保护与访问功能集成到软件中,消除这些摩擦。Neo 致力于提供安全、无缝且快速的內容访问,简化观众的体验。历史上,安全功能通常作为独立产品出售,而 Neo 通过使浏览器成为安全流媒体的综合解决方案,改变了这一模式。诈骗者已针对世界杯球迷发起网络钓鱼网站和虚假票务要约,类似威胁同样延伸至在线流媒体。Neo 主动拦截恶意链接,并在其危害用户之前识别诈骗。它还集成了 VPN 技术,并配备专用小部件,可轻松查找合法的、特定区域的流媒体链接,无需复杂设置。该浏览器优先考虑用户友好性,预判用户需求,如比赛提醒和摘要。Neo 的核心理念是“以冷静为设计”,确保隐私与安全融入简洁的界面。尽管 Neo 面临来自成熟浏览器的竞争,其目标是为数十亿潜在观众简化流媒体体验。 Every World Cup fan deserves a seat. Norton Neo says its free browser is the ticket venturebeat.com
研究人员训练了一个开源 AI 搜索代理 Harness-1,其在召回相关信息方面表现优于 GPT-5.4。 Harness-1 是一款开源搜索智能体,由伊利诺伊大学厄巴纳 - 香槟分校(UIUC)和加州大学伯克利分校(UC Berkeley)的研究人员与 Chroma 合作开发。该智能体拥有 200 亿参数,基于 OpenAI 的 gpt-oss-20B 模型构建,重新定义了 AI 处理复杂检索任务的方式。它在精心 curated 的数据集上取得了令人瞩目的 73% 召回准确率,甚至超越了 GPT-5.4,并领先于其他开源替代方案。关键的是,Harness-1 及其相关代码和权重已立即在 Hugging Face 上以宽松的 Apache 2.0 许可证发布。此次开发也展示了 Tinker 的有效性,Tinker 是一种用于训练和微调 AI 模型的 API。Harness-1 的成功源于将记账任务从模型内存卸载到结构化软件环境中。这种“状态外化框架”(state-externalizing harness)如同书桌和文件柜,使 AI 能够专注于研究与推理。传统搜索智能体往往因试图在上下文窗口内管理所有信息而遭受“搜索健忘症”(search amnesia)。Harness-1 的范式转变证明,高效的环境是 AI 自主性的关键,而不仅仅是模型规模。其训练流程强调数据效率,采用一种新颖的方法,极大地简化了学习过程。该模型在企业应用方面具有巨大潜力,以显著降低的成本和延迟提供前沿水平的性能。 Researchers trained an open source AI search agent, Harness-1, that outperforms GPT-5.4 on recalling relevant information venturebeat.com +1
代理式 AI 解决了编码问题——同时也暴露了软件工程中的每一个其他问题 代理型 AI 正在加速代码生成,但产品改进并未同步跟进,因为编写代码从来就不是主要瓶颈。真正的挑战在于定义需求、系统集成以及软件维护,而 AI 代码产出的增加反而加剧了这些问题。不受控制的 AI 生成代码会在人工审查环节引入新的瓶颈,导致上下文丢失和错误被遗漏。企业必须制定明确的应对方案以驾驭这一局面,而非立即削减人力。 第一阶段聚焦财务与风险治理,旨在防范下行风险。这要求将治理视为顶级风险,建立统一的代理配置标准,并对非人类主体实施最小权限原则,以防止责任真空。此外,组织还需通过设定配额和速率限制来管理 AI 预算,避免成本失控。 第二阶段强调技术战略,核心是构建高效的 AI 引擎。这包括采用多模型、多供应商策略,以发挥各系统的优势并避免单点故障。同时,应投资于提供更高质量输出和更大效率的前沿模型,将 AI 视为工程杠杆而非单纯支出。至关重要的是,成功应以业务成果和工程耐久性为衡量标准,而非仅看代码行数或 token 数量。 第三阶段关注人才与组织,重新配置人力资本以适应新环境。工程师需从语法编写者转变为系统思考者和代理管理者,聚焦架构愿景与跨系统集成。绩效与激励机制需重新定义,以奖励更广泛的业务影响和有效的代理编排,超越传统的基于体量的指标。切忌过早削减人力,因为需要建立一体化的代理工作流基线和可衡量的增强产出,才能真正理解实际需求与能力。 归根结底,AI 是工程判断的倍增器:在结构良好的系统中加速交付,而在理解不足的系统中加速失败。当前的问题并非 AI adoption 缓慢,而是缺乏对其局限性与风险认知的盲目 adoption。对于领导者而言,理解这一动态至关重要,因为当前的执行速度已超出行业管理后果的能力,导致因治理不善的 adoption 引发运营失败。 Agentic AI solved coding — and exposed every other problem in software engineering venturebeat.com
当 Claude 发生变化时,一切也随之改变:在生产环境中管理 AI 的爆炸半径 该系统能够将自然语言查询有效转换为API调用,通过简化来自各种来源的数据整合流程,为分析师和客户经理提供支持。其实现方式是:向集成后的后端系统发送API调用,应用由大型语言模型(LLM)生成的JSON查询来格式化响应,并通过电子邮件、Google Drive文档或浏览器图表交付结果。 到2025年年中,该系统已成为临时数据检索的标准方法,每月为内部和外部利益相关者生成数百份报告。 核心交互依赖于LLM与系统之间结构化的JSON对象契约。从Claude Sonnet 3.5到4.0的初期模型升级十分顺利,这导致人们对LLM的稳定性产生了过度自信。然而,Sonnet 4.5的升级却引发了两个主要问题。 首先,模型开始将 post_body 内容嵌入描述字段,导致 API 调用的过滤参数为空,从而引发数据检索范围过广或 500 错误。 其次,Sonnet 4.5 开始提出澄清性问题,而该系统原本设计为直接进行 API 调用,不涉及人工交互或状态管理,因此对此功能并无既定处理流程。 这些故障迫使我们回滚至 Sonnet 4.0,而针对 4.5 版本进行过适配的新 API 集成进一步加剧了这一复杂性。此次事件凸显了基于 LLM 的系统如何挑战传统工程规范——由于内部组件不受开发者控制,导致变更产生不可预测的“无限影响范围”。 事后分析揭示了提示词定义不足的问题;此前模型版本曾隐式推断出某些约束条件,而更“乐于助人”的 Sonnet 4.5 却违反了这些约束。 作者提出了一种“评估优先(evals-first)”架构,其中由评估套件而非提示词作为系统的正式规范。 评估集由输入、必需的输出属性以及用于验证模型或提示词变更的评分函数组成。例如,某项评估会检查描述字段是否包含序列化的有效载荷内容。尽管构建和维护成本高昂,但评估集如同一道闸门,通过密集采样输入输出行为来限定影响范围。 尽管评估具有实用价值,但并非万能良方;它们只能捕获指定的故障模式,且通过“大语言模型作为评判者”的评分机制会引入自身的变异性。工程界目前仍缺乏针对自然语言评估覆盖率的标准,以及用于处理概率性测试结果的持续集成/持续交付(CI/CD)系统。 弥合“通过烟雾测试”与“预测生产环境行为”之间的差距——尤其随着代理程序日益自主化——已成为一项关键的工程挑战。那些将评估视为系统真正规范并予以优先考虑的团队,将最能应对这一挑战。 When Claude changed, everything changed: Managing AI blast radius in production venturebeat.com
微软人工智能负责人称,公司从 OpenAI 中“获得解放”,以追求超级智能。 微软的人工智能战略正超越其与 OpenAI 的独家合作。最近的一项合同变更允许微软 AI 利用自身资源推进其独立的“超级智能”计划。这体现在 MAI 系列七款自主研发人工智能模型的发布上。这些模型涵盖推理、图像生成等多种能力,基于授权数据从头训练,区别于行业内流行的蒸馏趋势。MAI 模型专为企业部署设计,开发者可在第三方平台上对其进行微调。微软首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)强调,这些模型是更大使命的概念验证:到 2030 年打造全球最佳人工智能模型。此前与 OpenAI 的合作限制了微软在独立人工智能研究和模型开发方面的能力。如今,微软在重视现有与人工智能提供商关系的同时,追求自主自足。公司的重心正从对话式人工智能转向能够跨各类企业软件执行复杂任务的自主人工智能代理。微软认为,其嵌入企业工作流的独特地位,使其能够利用专有数据训练未来的人工智能模型,从而获得显著的竞争优势。 Microsoft AI chief says company was “set free” from OpenAI to pursue superintelligence venturebeat.com +1