本地优先且完全可追溯：Ollama、Foundry Local 与 Microsoft Foundry 之间的路由

关注

本地优先且完全可追溯：Ollama、Foundry Local 与 Microsoft Foundry 之间的路由

发布代理项目涉及强大云端 AI 行为与用户有限耐心之间的张力，用户通常只会尝试项目几分钟。为解决这一问题，采用混合方法，在单一合同下根据可用性将请求路由至不同层级的模型。这确保了即使云服务发生故障，也会使用具有相同模式（schema）和代码路径的本地回退方案。通过此方法，实现了可分叉性（forkability），即能够在他人机器上可靠地运行项目。通过详细的日志记录和追踪实现的可观测性，通过明确展示每个请求由哪条路径服务及其原因，从而建立用户信任。该系统优先使用本地模型，但在本地选项不可用或遇到错误时，可无缝回退至云端 Foundry 模型。这种弹性在 create_chat_completion 等函数中通过自动管理实现，该函数处理多种故障模式，而无需调用者介入。当发生回退时，会显式记录并在重放日志（replay log）中可见，提供透明的处理过程记录。系统支持按角色路由，使系统内的不同代理能够利用特定模型，无论是云端还是本地模型。运行时配置可通过设置控制台进行调整，允许在不重启应用的情况下更改路由模式和模型分配。超时和重试被严格限制，以防止系统停滞，确保用户获得快速且信息丰富的错误体验。

Local-First and Fully Traced: Routing Between Ollama, Foundry Local, and Microsoft Foundry techcommunity.microsoft.com

RSS Hunter • 6月27日