文本介绍了 Model Router,这是 Microsoft Foundry 中的一项平台级解决方案,用于在多生成式 AI(GenAI)模型之间管理和路由请求。其核心问题在于如何以可扩展的方式,根据各模型的不同能力,高效地为每个请求分派最合适的模型。Model Router 利用一个训练好的模型来分析提示词(prompt),并将其引导至相应的底层模型。它提供多种路由模式,包括“平衡”、“质量”和“成本”模式,从而提供不同的性能权衡。架构师可以控制模型子集,进而影响治理策略和成本。该子集还用于管理合规性、上下文窗口大小、成本上限以及故障转移机制。部署过程简单直接,采用标准的聊天完成(chat completion)端点。关键要素包括记录 `response.model` 以进行归因,以及记录 `usage` 块以了解 token 使用情况。监控通过 Azure Portal 中的指标进行,用于性能分析和成本分析。关键建议包括记录所使用的模型,并理解潜在的故障模式。2025 年 11 月 18 日的发布新增了工具调用支持,使 Model Router 能够在 Foundry Agent Service 内部运行。参数处理会根据所选模型而变化,某些参数会被特定类型的模型忽略。
techcommunity.microsoft.com
Architecting Cost-Aware LLM Workloads with Model Router in Microsoft Foundry
Create attached notes ...
