RSS Microsoft Teams 博客文章 关注 本地优先且完全可追溯:Ollama、Foundry Local 与 Microsoft Foundry 之间的路由 发布代理项目涉及强大云端 AI 行为与用户有限耐心之间的张力,用户通常只会尝试项目几分钟。为解决这一问题,采用混合方法,在单一合同下根据可用性将请求路由至不同层级的模型。这确保了即使云服务发生故障,也会使用具有相同模式(schema)和代码路径的本地回退方案。通过此方法,实现了可分叉性(forkability),即能够在他人机器上可靠地运行项目。通过详细的日志记录和追踪实现的可观测性,通过明确展示每个请求由哪条路径服务及其原因,从而建立用户信任。该系统优先使用本地模型,但在本地选项不可用或遇到错误时,可无缝回退至云端 Foundry 模型。这种弹性在 create_chat_completion 等函数中通过自动管理实现,该函数处理多种故障模式,而无需调用者介入。当发生回退时,会显式记录并在重放日志(replay log)中可见,提供透明的处理过程记录。系统支持按角色路由,使系统内的不同代理能够利用特定模型,无论是云端还是本地模型。运行时配置可通过设置控制台进行调整,允许在不重启应用的情况下更改路由模式和模型分配。超时和重试被严格限制,以防止系统停滞,确保用户获得快速且信息丰富的错误体验。 Local-First and Fully Traced: Routing Between Ollama, Foundry Local, and Microsoft Foundry techcommunity.microsoft.com
create_chat_completion等函数中通过自动管理实现,该函数处理多种故障模式,而无需调用者介入。当发生回退时,会显式记录并在重放日志(replay log)中可见,提供透明的处理过程记录。系统支持按角色路由,使系统内的不同代理能够利用特定模型,无论是云端还是本地模型。运行时配置可通过设置控制台进行调整,允许在不重启应用的情况下更改路由模式和模型分配。超时和重试被严格限制,以防止系统停滞,确保用户获得快速且信息丰富的错误体验。