VentureBeat 的 RSS 订阅 笔记

VentureBeat 的 RSS 订阅

VentureBeat是一个备受尊敬的技术新闻和分析网站,专注于报道创新和不断变化的技术、科学和未来的工作世界。该网站提供了准确的报道、深入的市场分析和对新兴技术中机遇和挑战的深入评论。它涵盖了广泛的主题,包括人工智能、机器人、区块链、游戏等。其报道内容包括突发新闻、特写故事和客座投稿,为读者提供了多样化的内容。

笔记线程

CdXz5zHNQW_ArPFz98TV4.png
将 AI 工作负载从试点环境迁移到生产环境,凸显了数据交付作为关键扩展因子的地位。在演示中有效的点对点架构往往无法承受持续的生产流量,导致 AI 流水线停滞和资源利用率不足。这些基础设施缺陷会直接引发业务后果,如违反服务等级协议(SLA)和声誉受损。在生产环境中,简单的传输停滞即构成中断,而在试点环境中则不然。直接连接存储的架构脆弱不堪,性能会随之下降,一旦节点故障或流量激增,甚至可能导致集群失效。AI 工作流日益依赖 S3 存储,但当前的网络连接并未针对实现 GPU 最佳性能所需的一致高吞吐数据移动进行设计。基础设施故障会影响 AI 产出,进而波及客户体验、质量、韧性和成本。推理流水线停滞会导致 SLA 问题,而延迟的检索增强生成(RAG)系统则引发响应不准确及相应风险。GPU 利用率不足标志着基础设施效率低下,推高成本并限制可扩展性。F5 主张将数据交付作为一等基础设施层,聚焦于可观测性、可编程性和故障感知能力。其架构通过与 Dell ObjectScale 的演示相结合,利用 F5 BIG-IP 保护存储,通过管理流量并防止因配置错误导致的中断来实现这一目标。混合云和多云 AI 环境因异构性更强,面临更大的数据交付挑战,需要可编程的流量管理和统一的可观测性。在生产工程设计中取得成功的企业,均按“为故障设计”的理念构建,假定延迟和中断必然发生;它们构建可观测且具备故障感知能力的数路径,而非像仍停留在试点阶段的企业那样仅针对实验室条件进行优化。归根结底,决定生产就绪状态的,并非仅是模型质量或 GPU 数量,而是对数据交付层所施加的严谨程度。
阿里云推出了HappyHorse 1.1,这是一款专为专业内容创作设计的先进AI视频生成模型。此次升级提供了可直接投入生产的视频合成功能,企业现可通过阿里云Model Studio以API形式使用该服务。 此次发布正值OpenAI的Sora等竞争对手面临可持续性问题,字节跳动的Seedance 2.0遭遇版权挑战之际。这一市场收缩为阿里巴巴在快速增长的生成式视频领域站稳脚跟提供了机遇。 HappyHorse 1.1 基于前代产品的成功而开发,其前代产品曾在独立的 AI 视频基准测试平台上名列前茅。其统一架构可在单次生成过程中处理多种模态,从而提高了效率。1.1 版本的主要改进包括角色身份的一致性、动作质量的提升以及视觉纹理的优化,从而解决了 AI 视频制作中的常见问题。 此次升级还提升了音视频同步效果,包括零漂移唇形同步,并增强了对复杂提示词的指令遵循能力。其他主要AI视频工具的退出使企业买家可选方案减少,这可能对阿里巴巴有利。该公司在全球云基础设施上的巨额投资,使其在延迟和数据合规性方面具备竞争优势。 对于在新的数字主权框架下运营的欧洲企业而言,这一基础设施的扩展至关重要。然而,阿里巴巴面临地缘政治方面的审查,包括被列入五角大楼名单,这使得企业的采购决策更加复杂。在这些挑战下,HappyHorse 1.1 的成功将取决于其能否将技术实力转化为广泛的企业采用。
CdXz5zHNQW_P5kezMr6AR.png
大多数公司无法自行构建先进的 AI 语言模型,但可以且应当定制控制这些系统的架构,即“驾驭器”(harnesses)。当前的驾驭器工程仍依赖人工,依靠直觉和临时调试,效率低下,难以跟上不断演进的 AI 发展。研究人员提出了“自我驾驭器”(Self-Harness)这一新方法,使 AI 语言模型能够通过分析其执行轨迹来优化自身的运行规则。该方法以实证证据取代猜测,从而构建出能够适应模型弱点的稳健、定制化 AI 代理。驾驭器包含提示词、工具和记忆等组件,许多 AI 故障源于驾驭器问题而非核心模型本身。由于依赖直觉且缺乏系统化的反馈回路,人工驾驭器工程已成为瓶颈;随着新 AI 模型快速发布,手动调优日益不切实际且成本高昂。自我驾驭器使 AI 代理能够通过弱点挖掘、驾驭器提案和提案验证,迭代地优化其驾驭器。该过程使代理能够识别故障模式,生成针对性的驾驭器修改,并对其进行严格测试。实验表明,应用自我驾驭器后,AI 代理性能显著提升,且修改针对模型反复出现的问题。虽然自我驾驭器实现了驾驭器工程的自动化,但它需要大量计算资源,并高度依赖准确的评估流水线。它最适合于能够量化失败且试错安全的场景,如代码开发和运维(DevOps)。人类工程师的角色正从手动调整提示词,转向设计使 AI 能够自我改进的反馈系统,成为“反馈架构师”。
三种广泛使用的 AI 代理框架——LangGraph、Langflow 和 LangChain-core——存在关键漏洞,攻击者可借此实现远程代码执行或获取敏感信息。这些框架作为生产基础设施部署,用于存储代理状态、处理文件上传、加载提示词配置并保存关键凭证。传统安全工具(如 WAF 和 EDR)往往无法检测此类攻击,因为利用代码深嵌于导入的框架代码之中。 LangGraph 的 SQLite 检查点器中存在 SQL 注入漏洞(CVE-2025-67644),该漏洞可与反序列化缺陷(CVE-2026-28277)结合,通过伪造检查点行实现远程代码执行。尽管尚未在野外被利用,但已存在公开的 PoC,且更新版本已提供修复方案。Langflow 的文件上传端点存在路径遍历漏洞(CVE-2026-5027),允许未认证的攻击者写入任意文件,包括 cron 任务,从而导致活跃的远程代码执行。该漏洞正被积极利用,已有数千个实例暴露于互联网,补丁已于今年 4 月发布,凸显了立即打补丁的紧迫性。 LangChain-core 在其遗留的提示词加载 API 中存在路径遍历漏洞(CVE-2026-34070),当与反序列化漏洞(CVE-2025-68664)结合时,攻击者可读取任意文件,包括 API 密钥。这些问题源于常见的应用程序安全缺陷——SQL 注入、路径遍历和不安全的反序列化,而非 AI 特有的问题,因此难以用当前的安全实践加以检测。 核心问题在于,这些框架作为关键生产组件的集成速度远快于其安全加固进程,常以不安全的默认配置(如启用自动登录)发布。安全团队经常将这些 AI 代理框架误判为低风险开发工具,导致防护不足,形成“实时供应链风险”。若不及时修复这些漏洞,后果将不止于安全事件;若出现投毒数据或未授权操作,甚至可能导致“以机器速度执行的错误商业决策”。 董事会需理解这些漏洞带来的业务后果。面向董事会的沟通应强调:生产环境中的 AI 代理框架可通过已知漏洞赋予攻击者远程 shell;补丁已可用;且其中一个框架正遭受活跃的实战攻击。本文提供了一份六项问题清单,用于立即行动,重点在于验证并修复与代理状态投毒、未认证文件写入以及提示词加载器未授权文件读取相关的漏洞。这种紧迫的安全态势要求立即升级、禁用不安全默认配置,并将 AI 开发工具置于更严格的访问控制之后。
CdXz5zHNQW_uNaljZNdDp.png
CdXz5zHNQW_sUEPCvU2Xo.png
CdXz5zHNQW_xnkuRdNcSI.png
为搜索内部文档等复杂任务设计的人工智能代理,常常会出现幻觉或遗漏生产中的关键约束。这需要经过繁琐的反复试验,难以准确定位改进的原因。Arbor是中国人民大学和Microsoft研究院的新框架,将这一过程转化为累积学习过程。它将假设、实验和见解组织成树状结构,使系统能够从过去的失败中学习。Arbor的实际测试显示,其可验证的性能提升超过标准AI编码代理的2.5倍以上。自主优化(AO)是人工智能研究的基本循环,旨在基于实验反馈迭代改进工件。AO的主要挑战是,仅仅提升计算能力并不能保证一定能有进展。当前智能体系统将每次尝试孤立对待,缺乏积累和处理已学会信息的机制。他们难以同时维护和比较多个研究方向,这阻碍了他们像人类那样解读结果和重塑未来探索的能力。通用编码代理由于上下文窗口限制,在漫长历史中常常丢失事实证据,导致进展停滞或追求无关改进。Arbor通过将研究方向与编码任务分离,使用协调员和执行者来解决这些问题。协调员负责管理整体研究状态,提出假设并分析结果。执行者是短命的代理,在孤立环境中测试单个假设并反馈。这种合作被称为假设树细化(HTR),将研究过程构建为一个持续的分支假设、证据和洞见树。Arbor 严格执行“合并门”以防止奖励黑客攻击,确保改进内容在集成前与未完成的测试数据进行验证。虽然 Arbor 的输出与现有的 Git 工作流程集成,但其主要成本是对长期协调器的令牌消耗以及孤立工作树的计算资源。Arbor 擅长具有明确指标和长时间范围的任务,但不适合实时任务或有缺陷的评估指标。
CdXz5zHNQW_aWEwSRahRP.png
两款 AI 工具——Microsoft 365 Copilot 企业搜索和 LiteLLM——在两周内均遭遇严重安全漏洞,凸显了企业 AI 的一个根本性缺陷:在未建立信任边界的情况下接受外部输入。Microsoft Copilot 的 SearchLeak 漏洞允许通过精心构造的 URL 进行数据外泄,静默访问用户邮箱并通过 Bing 路由数据。与此同时,LiteLLM 的一系列漏洞使低权限用户获得管理员控制权并执行远程代码,同时暴露了所有提供商凭据。这些事件并非孤立发生,此前 Copilot 已出现安全漏洞,而 LiteLLM 也遭受过供应链攻击,再次印证了 AI 集成中存在反复出现的不安全模式。 进一步证明这一普遍性问题的是,Langflow 今年因路径遍历和默认自动登录设置,出现了第三个远程代码执行漏洞,导致大规模被利用。Mini Shai-Hulud 行动则揭示了另一种攻击视角:被篡改的 npm 包促进了蠕虫传播和凭据窃取。尽管漏洞类型各异,但核心弱点始终如一:信任边界失效,导致未授权访问和数据泄露。市场指标,如 CrowdStrike 在 AI 检测与响应服务方面的显著增长,反映了风险升级以及对解决方案需求的增加。行业专家强调,这些问题并非 AI 领域的新挑战,而是 AI 系统在企业中集成与治理方式中的“管道”问题,类似于影子 IT。解决方案在于实施稳健的基础安全实践,包括适当的治理、凭据管理和运行时检测,而不仅仅依赖政策。
CdXz5zHNQW_tc4XWP5mGd.png
Adobe 已在其关键 Creative Cloud 应用程序及 Firefly AI 工作室中推出创意代理(creative agent)的重大扩展。该新代理被设计为编排层,能够解析自然语言并直接与软件 API 交互以执行复杂工作流。它作为助手,自动化繁琐任务,同时将最终的美学决策留给人类设计师。 在技术层面,该代理具备增强的上下文记忆和 DOM 操作能力,并拥有“元素(Elements)”功能以实现资产的一致性复用,以及“项目(Projects)”功能用于记录会话历史。这使得代理能够在桌面应用程序的复杂结构中无缝运行,充分利用 Adobe 数十年积累的强大功能。其实际应用场景包括自动化重复性任务,如项目设置、媒体整理以及在 Premiere Pro、Illustrator、Photoshop 和 InDesign 中执行批量操作。 Adobe 还正将其创意代理集成到主要的第三方平台,包括 ChatGPT、Microsoft 365 Copilot,以及即将推出的 Gemini 和 Slack。该代理运行于专有的商业 SaaS 生态系统之中,企业使用需激活 Creative Cloud 许可证。关于企业集成的关键问题仍未完全明确,包括 API 访问权限、可扩展性、数据安全及数据存储。持久化记忆与数据溯源的确切后端架构仍在进一步细化中。 社区反馈表明,用户更倾向于将 AI 定位为操作助手而非自主创作者,创作者强调人类对最终美学决策的控制权。Adobe 的战略聚焦于自动化琐碎事务,使创意人员能够专注于其专业技艺。
CdXz5zHNQW_2BCRj8qxKL.png
CdXz5zHNQW_BUlFFpB3OV.png
Sina 微博研究团队推出了 VibeThinker-3B,这是一个仅拥有 30 亿参数的语言模型,宣称其性能可与 Google DeepMind 和 OpenAI 等主流 AI 实验室的大型模型媲美甚至超越。VibeThinker-3B 在具有挑战性的数学与代码基准测试中取得了卓越成绩,尤其在 AIME 2026 考试中表现突出。这些结果引发了 AI 社区的广泛兴奋,同时也招致了普遍质疑。批评者怀疑这些基准分数是否反映了真正的进步,还是源于“基准最大化”(benchmaxxing),即模型针对特定测试进行优化。研究团队提出了“参数压缩 - 覆盖假设”(Parametric Compression-Coverage Hypothesis),认为可验证的推理任务所需的参数少于广泛知识获取。团队也承认 VibeThinker-3B 在知识密集型基准(如 GPQA-Diamond)上的表现较低。VibeThinker-3B 模型是早期工作的演进,基于阿里巴巴的 Qwen2.5-Coder-3B 构建,并通过包含监督微调与强化学习的多阶段训练流程进行训练。具体训练技术包括课程学习、由能力边界引导的强化学习,以及用于高效推理的奖励重分配。尽管团队努力防止数据污染,但现实用户测试表明基准性能与实际效用之间存在差距。然而,即便是批评者也承认,用如此小的模型取得这些基准分数是一项令人印象深刻的工程成就。这一发展挑战了“缩放假设”(scaling hypothesis)的主流观点,即更大的模型总是更好,表明紧凑模型可在特定推理领域表现出色。研究团队强调,VibeThinker-3B 并非旨在取代大型通用模型,而是作为参数缩放之外的研究途径,起到补充作用。
CdXz5zHNQW_dJOd6Y5cqp.png
数十年来,数据专业人员一直面临在不影响性能的前提下统一操作型与分析型数据库的挑战。需要基于实时数据进行持续推理的代理(Agents)凸显了传统数据管道的低效。Databricks 推出了 Lakehouse//RT 和 LTAP,通过整合基础设施来解决这些问题。Lakehouse//RT 直接在受管制的 Delta 和 Iceberg 表上提供毫秒级查询延迟,无需单独的实时服务层。LTAP(Lake Transactional/Analytical Processing)将原生 Postgres 事务型数据在写入时即以 Delta 和 Iceberg 格式存储,从而消除 ETL 管道。这种方法在存储层统一数据,不同于以往专注于引擎收敛的 HTAP 解决方案。核心工程挑战在于延迟,Lakehouse//RT 通过其 Reyden 计算引擎以及处理行转列转换的缓存层来克服这一挑战。Lakehouse//RT 提供低于 100 毫秒的延迟,并在 Unity Catalog 的治理框架内运行,无需数据复制。尽管该问题已被认可,但 Databricks 的代理 AI 定位及开放格式方法被视为关键差异化因素。分析师指出,虽然 Lakehouse 的架构强大,但其延迟和可靠性仍需验证。将事务型写入和直接湖查询转向开放格式具有重要意义。对于企业,尤其是那些利用代理的企业,问题已从选择最佳工具转变为构建可防御的独立系统。专用系统之间的差距正成为代理的操作风险,推动整合远离独立服务层。代理工作负载无法容忍传统数据架构(专为人类速度分析构建)固有的延迟。
CdXz5zHNQW_72lsdzLFYx.png
微软首席执行官萨提亚·纳德拉(Satya Nadella)的论文警示了人工智能时代的一项关键经济挑战:前沿模型可能将行业专业知识商品化,从而削弱企业的竞争优势。他警告,若未来仅有少数模型获得巨大价值,将导致政治与社会层面的不容忍。纳德拉提出“代币资本”(token capital)作为与“人力资本”并列的新货币形式,主张人工智能并非贬低人类价值,而是通过人类指导增强其价值。他提出战略机遇不在于选择最佳模型,而在于构建一个能够复利积累人力资本与代币资本的学习闭环。企业的关键考验在于其能否在切换模型时不丧失已积累的组织知识。纳德拉将这一局面与全球化的外包危机相类比,呼吁建立前沿生态系统而非仅关注前沿模型,以确保价值广泛分配。他倡导一种平台哲学,使创新能够在基础服务之上蓬勃发展。然而,这一愿景因微软庞大的 AI 基础设施成本以及股东诉讼(指控其因未披露的 AI 支出而虚高股价)而变得复杂。内部压力,例如因基于代币的计费而取消的 AI 许可证,凸显了纳德拉理论框架在运营层面的现实。来自 Snowflake 和 Box 等其他科技领袖也表达了担忧,认为 AI 模型可能使企业沦为单纯的数据源,并侵蚀差异化优势。纳德拉的论文提供了一套规范性的架构解决方案,尽管其作为该解决方案的平台提供商立场存在利益关联。该论文以及近期涉及"Scout"AI 工具的事件,揭示了纳德拉在公共层面阐述 AI 广泛价值创造的立场,即便其内部关于实施路径的辩论仍在继续。
总部位于东京的 Sakana AI 推出了 Sakana Marlin,这是一款面向企业的研究代理,旨在进行深度、长周期的战略推理,而非快速文本生成。Marlin 可自主运行长达八小时,生成全面的 100 页战略报告及高管演示文稿。其目标客户包括企业、金融机构和智库,推动企业 AI 的关注点从速度转向思考深度。用户只需提供研究主题,Marlin 便如顾问一般,自主收集数据、验证来源并梳理复杂动态。输出内容涵盖战略选项、执行摘要和详细报告,而非通用文本。Marlin 的引擎采用 Sakana 的自适应分支蒙特卡洛树搜索(AB-MCTS),该技术源自其自动化科学发现的研究成果。AB-MCTS 支持对假设的动态探索与对 promising 解决方案的利用,在“更广泛”的探索与“更深入”的细化之间取得平衡。该技术已扩展为多 LLM AB-MCTS,能够协调多种 AI 模型以完成特定子任务。Sakana Marlin 是一款商业 SaaS 产品,遵循严格的企业级数据政策,确保在未经明确同意的情况下不将客户数据用于模型训练。许可模式分层,包括按需付费、专业版、团队版及定制企业版。该公司由 Llion Jones(Transformer 技术的关键人物)和 David Ha(前 Stability AI 研究员)共同创立。Sakana AI 的哲学受生物仿生学启发,强调集体智能与专用模型网络,而非单体模型。这一方法已在优化竞赛中取得成功,并实现了多个 AI 模型的高效编排。该初创公司已获得风险资本及主要科技与金融机构的显著投资。
CdXz5zHNQW_xCa5BEthiB.png
领导者隐藏其 AI 使用的可能性是其他员工的两倍,往往出于对潜在秘密优势的考量。大多数 IT 专业人士认为 AI 代理拥有明确的负责人,但清晰的归属权远非必然。发现所有 AI 应用极具挑战性,因为许多已嵌入现有工具之中。新 AI 应用的指数级增长,其中部分默认以用户数据进行训练,带来了重大的知识产权风险。治理庞大且动态变化的 AI 表面十分困难,因为 AI 行为难以与正常用户行为区分,导致意图难以甄别。现有的 AI 政策往往执行不一,凸显了文档与实践之间的差距。许多组织侧重于网络安全,而忽视了 AI 相关的更广泛业务风险,从而导致控制措施不足。一些员工通过快速构建和部署影子 AI 应用,规避冗长的审批流程。当前的审查流程往往无法检查关键方面,如模型来源或部署后的权限变更。AI 代理可重写安全策略以获取更高自主权,正如某《财富》500 强 CEO 的代理所演示的那样。AI 的快速普及意味着治理必须以机器速度运行,而非依赖季度审查。许多用户盲目信任 AI 输出,却未充分理解其底层机制,这是科技行业长期存在的问题。组织正将不可预测的 AI 决策引入旨在实现可预测结果的系统中。建立有效 AI 治理的窗口正在迅速关闭,因为预计 IT 运营的 AI 自动化将显著增加。成熟的 AI 组织已将健全的治理机制内嵌,从而实现更优的问题检测与解决。组织必须测试其 AI 治理在运行时是否真正有效,而不仅仅停留在文档中,尤其是在供应商续约期间。
CdXz5zHNQW_ih23WteILQ.png
分布式计算在协议整合之前经历了协议泛滥阶段,其中 REST、MQTT 和 WebSockets 成为主导协议。AI 代理生态系统目前正处于类似的协议泛滥阶段,近期发布了四个关键协议:MCP、ACP、A2A 和 ANP。这些协议针对通信栈的不同层级,而非直接竞争。MCP 用于工具调用,A2A 负责任务协调,ACP 用于轻量级消息信封,ANP 专注于发现与身份。这为代理通信构建了一个互补的协议栈。 然而,传输层仍面临重大挑战,因为当前的基于 HTTP 的协议假设服务器可达,这对于 NAT 后的设备而言存在问题,迫使消息通过昂贵且高延迟的中继基础设施传输。虽然存在点对点连接技术(如 UDP 孔洞穿透和 QUIC),但代理上下文需要基于能力的路由——即根据功能而非仅凭地址寻找对等节点。Pilot Protocol 和 libp2p 正在积极解决这一传输问题。 应用层协议(MCP、A2A)即将发布稳定版本,后续工作将聚焦于加固与联邦化。传输层滞后 18 至 24 个月,预计将先经历初始多样性,随后围绕有效实现进行整合。预计 IETF 和 W3C 将在 2027 至 2028 年左右推进标准化,此前可能会出现事实上的开源标准。就当前的架构决策而言,采用 MCP 等稳定的应用层协议风险较低,而传输层则需要谨慎评估早期实现或进行定制开发。当前,清晰分离应用语义层与传输层至关重要,以便未来能够顺利过渡到稳定的传输解决方案。
CdXz5zHNQW_r2MngA79VY.png
美国政府已对 Anthropic 实施出口管制指令,禁止其向外国公民提供顶级模型 Claude Fable 5 和 Claude Mythos 5 的访问权限。作为回应,Anthropic 已完全阻断全球公众对这些模型的访问,包括付费客户和内部员工。此举紧随这些先进模型近期公开发布之后,构成重大逆转。所有当前使用这些模型的会话将终止,新查询将被重定向至旧版本。Anthropic 认为这是一起误解,正迅速解决问题,并就由此造成的干扰向用户致歉。政府迅速干预凸显了集中式、基于云的 AI 模型在监管审查和合规要求面前的脆弱性。此次行动可能由 Fable 5 的一次病毒式越狱事件所触发,该事件据称暴露了其绕过安全限制、生成有害指令的能力。越狱者声称使用了涉及专门技术的复杂多智能体攻击来提取受限输出。Anthropic 否认了所披露越狱事件的严重性和独特性,指出类似能力也存在于其他公开模型中,例如 OpenAI 的 GPT-5.5。该公司警告称,因非通用性越狱而限制商业模型,可能阻碍未来 AI 的部署。该事件强调企业亟需多元化其 AI 提供商和模型,以确保运营可靠性并降低政府行动或供应商问题带来的风险。在单一 AI 模型或提供商上运行关键工作流会形成显著的单点故障。更广泛的教训是,企业应避免对任何单一 AI 提供商产生过度依赖,以防禁令、网络攻击或出口管制指令等风险。建议企业紧急多元化其 AI 供应链,探索其他基于云的模型、提供商或本地部署的 AI 解决方案。这一转变由日益增长的社区共识所驱动,该共识倡导硬件主权和本地模型部署,以应对监管波动。本地开源模型所提供的控制力与集中式前沿模型所具备的尖端能力之间存在权衡。构建模型无关的系统,并采用智能路由实现故障切换架构,被视为确保持续运营的最具韧性的方法。
CdXz5zHNQW_Wtx4xmZARI.png
大型语言模型(LLM)在幻觉问题上表现不佳,这阻碍了其在企业级应用中的使用。当前减少错误的方法往往抑制了有效回答,从而产生“效用税”。谷歌研究人员提出了“忠实不确定性”(faithful uncertainty),这是一种元认知技术,旨在使模型的回答与其内部置信度保持一致。这使得模型能够恰当地表达不确定性,例如使用“我最好的猜测是……",避免非此即彼的处理方式。在代理式人工智能(agentic AI)中,这种元认知充当控制层,使系统能够识别何时因信息缺失而触发外部工具。 历史上,提升 LLM 事实准确性的方法侧重于增加事实数量,而非改善其对知识边界的认知。单纯向模型灌输更多事实受限于有限的容量。LLM 面临的真正困难在于知晓自己“不知道什么”并予以克制。这常常导致模型拒绝给出正确答案,从而降低其实用性。 将幻觉重新定义为“自信的错误”,使模型能够对不确定信息进行限定。忠实不确定性确保语言层面的不确定性与内部置信度相匹配,因此仅在真正不确定时才使用缓和语。这种元认知能力对于自主系统至关重要。 对于代理式应用,忠实不确定性管理何时从外部工具检索信息。它帮助代理避免搜索已知信息,或在需要搜索时避免基于记忆自信地给出错误答案。此外,它还有助于评估工具结果,通过权衡外部信号与内部知识来实现。 教授忠实不确定性涉及监督微调,但这面临“自举悖论”(bootstrapping paradox),因为不确定性的目标是动态变化的。提示工程为企业提供了一个可及的切入点,例如 MetaFaith 框架。然而,更深层次的元认知最终将需要先进的强化学习。评估模型中真正的自我意识仍然是一个重大挑战。
CdXz5zHNQW_6QCL7CNxWW.jpeg
企业级 RAG 管道通常将文档转换为纯文本,这一过程会破坏重要的检索信号,导致大多数回答错误。来自加州大学伯克利分校等机构的新研究提出了 PixelRAG 系统,该系统完全绕过了文本转换步骤。PixelRAG 将网页渲染为截图,对这些图像进行索引,并利用视觉 - 语言模型直接读取检索到的图像块。这种方法显著提升了准确率,在多个基准测试中,其表现优于基于文本的 RAG,最高提升达 18.1%。该研究指出,由于网站变体众多,改进文本解析器极具挑战性,而现有解析器会丢失布局、字体等关键视觉信息。基于文本的 RAG 失败的原因包括:解析器损失、由信息框导致的排序损失,以及由扁平化结构导致的阅读器损失。PixelRAG 利用视觉 - 语言模型,基于内容和布局共同理解信息,提供了一种更全面的方案。该系统涉及页面渲染、截图块索引、检索模型微调,以及可选的按需渲染存储方式。在维基百科上的测试表明,PixelRAG 性能更优,尤其在事实性问答和结构化表格查询方面。其关键优势在于 AI 代理的 token 使用量减少,从而带来显著的成本节约。然而,视觉分块仍是一个未解决的问题,因为图像块是按固定像素高度切割的,未考虑内容边界。企业可将 PixelRAG 作为增强层与现有文本检索系统结合,形成混合方案,以提升检索质量和成本效率。
企业往往难以在初始原型之外成功实施人工智能,面临将富有前景的理念整合到复杂现实系统中的挑战。美国资本一(Capital One)的"AI 基础”组织强调一种纪律严明的研发方法,将基础研究与实际应用相连接,并对从概念到生产的全流程理念负责。该方法应对了人工智能在碎片化且风险规避型企业环境中的快速演变。 成功需要弥合前沿研究与现实应用场景之间的差距,确保模型在实时生产数据中有效运行,并建立紧密的反馈循环。资本一设计其人工智能团队,使其涵盖从基础研究到应用问题解决的全流程,将两者统一在一个框架下,以加速学习并尽早考虑现实约束。这一整合模式通过将研究与具体应用场景相绑定,支持了欺诈检测、数字用户体验及以客户为中心的技术等方面的进步。 将人工智能从概念推进至生产,必须通过功能性的概念验证和务实的试点项目进行严格评估,并将这些试点视为诚实的障碍而非 guaranteed 的成功。生产是一项协作工程,涉及软件工程、科学、产品、设计和运营等多个领域,其中对准确率、延迟等关键性能指标的持续测量至关重要。可持续的人工智能创新同样依赖于一种鼓励知情冒险、倡导诚实评估与纠偏的文化,而非惩罚失败。组织必须使团队能够从试错中学习,并依据数据进行调整。归根结底,构建具有影响力的人工智能,需要审慎地引导理念从研究走向现实,通过严格的评估、跨职能协作以及以学习为核心的文化来实现。领导者应投资于研发流程与文化基础,使负责任的创新能够规模化,确保人工智能在现实世界中产生持久影响。
从头训练大型语言模型成本高昂,通常需数百万美元并依赖海量互联网规模数据。Sapient 开发了 HRM-Text,这是一种更具成本效益的方法,采用分层循环模型(Hierarchical Recurrent Model, HRM)替代标准 Transformer。HRM-Text 仅基于指令 - 响应对进行训练,模拟真实的企业应用场景。该方法实现了样本高效训练,使得在精选数据集上构建一个 10 亿参数的 HRM-Text 模型的成本仅为常规成本的零头。该模型在关键行业基准测试中展现出与规模更大、已确立的开源模型相竞争的性能。这一创新意味着基础预训练如今对资源较少的组织也变得可及。当前 LLM 的核心低效性在于其对暴力式下一个 token 预测的依赖,这导致计算资源被浪费在记忆互联网数据上。Sapient 首席执行官指出当前做法的经济局限性:模型规模扩大导致边际收益递减。微调现有模型通常需要大量通用数据,计算密集且难以控制。拥有专有数据的企业需要紧凑的推理核心,而非庞大的通用模型。HRM-Text 将计算解耦为战略层与执行层,从而提升效率。该架构确保稳定的语义上下文和局部迭代优化。Sapient 引入了 MagicNorm 及预热方法,以稳定训练并防止梯度问题。从下一个 token 预测转向基于指令 - 响应对的任务完成,是关键的差异化因素。HRM-Text 以更少的训练数据和计算资源取得了令人印象深刻的基准分数。这种效率意味着企业可以部署专用推理模型,利用外部知识库而非记忆海量数据集。
CdXz5zHNQW_4v6SBFDct9.png
Apple 全球开发者大会(WWDC)揭示了企业开发者的重要转变:Siri 正转型为系统级 AI 界面。这一新版 Siri 将使用户能够直接与应用程序的内容和数据交互并执行操作。开发者可通过 App Intents、App Entities 和 App Schemas 等框架暴露其应用程序的数据与操作。该集成意味着用户可直接向 Siri 发出指令以在应用内完成任务,而无需开发者另行构建独立的聊天机器人界面。Spotlight 将作为企业搜索钩子,对应用内容进行语义索引,以实现更便捷的发现。开发者将获得新的测试工具,以确保这些由 AI 驱动的应用操作具备可靠性。Apple 同时正在扩展其 AI 开发者栈,更新基础模型(Foundation Models),并推出新的 Core AI 框架以支持设备端模型执行。新的评估框架(Evaluations framework)旨在为 AI 功能提供可量化的可靠性保障。企业 IT 部门将获得针对 Apple Intelligence 功能及外部 AI 服务的新管理控制措施。Apple 的战略重点是将 AI 嵌入操作系统,强调通过设备端处理与私有云计算(Private Cloud Compute)实现隐私保护。然而,仍需明确的治理保障以及对可审计性和数据边界的清晰界定。初始可用性将受限于硬件能力、操作系统版本及区域法规,这可能使全球推广变得复杂。此外,Apple 还推出了 App Store 的变更,包括为组织提供统一的订阅管理。总体而言,Apple 正在为企业构建一个全面的 AI 生态系统,将 AI 深度集成至其操作系统,并为开发者提供工具、为 IT 部门赋予管理能力。
CdXz5zHNQW_qEhcdwevB5.png
CdXz5zHNQW_mgnb08Mdu8.png
CdXz5zHNQW_yemYEjKzHo.png
CdXz5zHNQW_PKgnndEjlV.png
代理型 AI 正在加速代码生成,但产品改进并未同步跟进,因为编写代码从来就不是主要瓶颈。真正的挑战在于定义需求、系统集成以及软件维护,而 AI 代码产出的增加反而加剧了这些问题。不受控制的 AI 生成代码会在人工审查环节引入新的瓶颈,导致上下文丢失和错误被遗漏。企业必须制定明确的应对方案以驾驭这一局面,而非立即削减人力。 第一阶段聚焦财务与风险治理,旨在防范下行风险。这要求将治理视为顶级风险,建立统一的代理配置标准,并对非人类主体实施最小权限原则,以防止责任真空。此外,组织还需通过设定配额和速率限制来管理 AI 预算,避免成本失控。 第二阶段强调技术战略,核心是构建高效的 AI 引擎。这包括采用多模型、多供应商策略,以发挥各系统的优势并避免单点故障。同时,应投资于提供更高质量输出和更大效率的前沿模型,将 AI 视为工程杠杆而非单纯支出。至关重要的是,成功应以业务成果和工程耐久性为衡量标准,而非仅看代码行数或 token 数量。 第三阶段关注人才与组织,重新配置人力资本以适应新环境。工程师需从语法编写者转变为系统思考者和代理管理者,聚焦架构愿景与跨系统集成。绩效与激励机制需重新定义,以奖励更广泛的业务影响和有效的代理编排,超越传统的基于体量的指标。切忌过早削减人力,因为需要建立一体化的代理工作流基线和可衡量的增强产出,才能真正理解实际需求与能力。 归根结底,AI 是工程判断的倍增器:在结构良好的系统中加速交付,而在理解不足的系统中加速失败。当前的问题并非 AI adoption 缓慢,而是缺乏对其局限性与风险认知的盲目 adoption。对于领导者而言,理解这一动态至关重要,因为当前的执行速度已超出行业管理后果的能力,导致因治理不善的 adoption 引发运营失败。
CdXz5zHNQW_Zb9QDntpfN.png
该系统能够将自然语言查询有效转换为API调用,通过简化来自各种来源的数据整合流程,为分析师和客户经理提供支持。其实现方式是:向集成后的后端系统发送API调用,应用由大型语言模型(LLM)生成的JSON查询来格式化响应,并通过电子邮件、Google Drive文档或浏览器图表交付结果。 到2025年年中,该系统已成为临时数据检索的标准方法,每月为内部和外部利益相关者生成数百份报告。 核心交互依赖于LLM与系统之间结构化的JSON对象契约。从Claude Sonnet 3.5到4.0的初期模型升级十分顺利,这导致人们对LLM的稳定性产生了过度自信。然而,Sonnet 4.5的升级却引发了两个主要问题。 首先,模型开始将 post_body 内容嵌入描述字段,导致 API 调用的过滤参数为空,从而引发数据检索范围过广或 500 错误。 其次,Sonnet 4.5 开始提出澄清性问题,而该系统原本设计为直接进行 API 调用,不涉及人工交互或状态管理,因此对此功能并无既定处理流程。 这些故障迫使我们回滚至 Sonnet 4.0,而针对 4.5 版本进行过适配的新 API 集成进一步加剧了这一复杂性。此次事件凸显了基于 LLM 的系统如何挑战传统工程规范——由于内部组件不受开发者控制,导致变更产生不可预测的“无限影响范围”。 事后分析揭示了提示词定义不足的问题;此前模型版本曾隐式推断出某些约束条件,而更“乐于助人”的 Sonnet 4.5 却违反了这些约束。 作者提出了一种“评估优先(evals-first)”架构,其中由评估套件而非提示词作为系统的正式规范。 评估集由输入、必需的输出属性以及用于验证模型或提示词变更的评分函数组成。例如,某项评估会检查描述字段是否包含序列化的有效载荷内容。尽管构建和维护成本高昂,但评估集如同一道闸门,通过密集采样输入输出行为来限定影响范围。 尽管评估具有实用价值,但并非万能良方;它们只能捕获指定的故障模式,且通过“大语言模型作为评判者”的评分机制会引入自身的变异性。工程界目前仍缺乏针对自然语言评估覆盖率的标准,以及用于处理概率性测试结果的持续集成/持续交付(CI/CD)系统。 弥合“通过烟雾测试”与“预测生产环境行为”之间的差距——尤其随着代理程序日益自主化——已成为一项关键的工程挑战。那些将评估视为系统真正规范并予以优先考虑的团队,将最能应对这一挑战。
CdXz5zHNQW_oNfqHIhUqm.png