端侧 AI 智能体遭遇严峻的内存限制。苹果的新架构绕过了这一瓶颈。
端侧 AI 模型受限于 DRAM 容量,其规模与能力受到制约。Apple 推出的 AFM 3 基础模型通过模型权重存储于 NAND 闪存而非 DRAM 来解决这一问题。AFM 3 系列包含端侧与服务器端模型,由 Apple 与 Google 合作开发,并在 Apple 私有云计算(Private Cloud Compute)框架内运行。端侧 AFM 3 Core Advanced 是一个拥有 200 亿参数的模型,采用新颖架构以克服 NAND 到 DRAM 的带宽瓶颈。该模型并非处理每个 token,而是对每个提示(prompt)仅进行一次路由决策,从而将特定“专家”从闪存加载至 DRAM 以执行给定任务。活跃参数数量可根据请求复杂度从 10 亿扩展至 40 亿。尽管 Apple 的技术报告详述了内存设计,但关于能耗、热约束以及向云端透明卸载的关键信息仍然缺失。这一空白给需要记录推理位置以符合监管要求的受监管企业带来了合规挑战。AFM 3 Core Advanced 的推出为企业提供了能力显著增强的端侧 AI 选项。然而,其大规模部署能力取决于即将发布的技术报告中预期的进一步细节。如今,企业在端侧与云端推理之间的选择已成为更为细致的架构决策。