人工智能基准测试在真实世界性能方面遗漏了什么
企业 AI 团队往往忽视生产环境中存储到计算的关键数据路径。基准测试通常聚焦于理想化条件,而现实世界的流量会引入延迟和抖动,严重损害性能。这一差距导致在实验室中可行的流水线在部署后失效。一种日益普及的解决方案是在存储与计算之间部署应用交付控制器(ADC)或平台(ADSP)作为控制点。基准测试通常无法模拟真实的网络退化,从而导致基础设施决策失误。F5 与 MinIO 的测试表明,即使仅有适度的延迟,S3 吞吐量也会出现显著下降。研究发现,延迟而非抖动是吞吐量损失的主要驱动因素。脆弱数据路径的成本不仅体现在 GPU 利用率低下,还包括 AI 输出质量差和运维复杂度增加。与传统应用不同,AI 工作负载缺乏缓存机制来吸收存储延迟。将存储边缘视为智能控制点而非简单连接,对 AI 至关重要。例如,F5 的 BIG-IP 与 MinIO 结合构成的 ADSP 可监控存储健康状态并将请求导向可用节点。这种方法通过维护经过工程优化的弹性数据路径,确保 GPU 保持高效运行。