我构建了一个 Rust 熵值监控器用于路由 LLM 推理——... 笔记

我构建了一个 Rust 熵值监控器用于路由 LLM 推理——基准测试结果显示如下

前沿大语言模型(LLM)推理成本高昂,由此催生了 Buddy System 这一分层推理架构。该系统旨在优先最大化本地模型的使用,仅在必要时才调用昂贵的云端服务。一个基于 Rust 实现的 EntropyMonitor 通过 MLX 在 Apple Silicon 上运行 4B 本地模型时,追踪每个 token 的不确定性。当本地模型表现出高熵值,表明存在真实不确定性(特别是在从句边界处)时,spaCy 命名实体识别(NER)会识别相关的命名实体或名词短语。随后,sentence-transformers 检索器查找相关的段落片段以提供上下文。云端模型 Sonnet 接收一个针对性查询,包含不确定的事实及其 grounding 文档。重要的是,云端调用采用异步方式,确保本地生成过程不会被阻塞。经典工具以零成本处理确定性任务,如数学计算和单位换算。基准测试表明,Buddy System 在保持极低成本的同时,准确率达到 71.4%,优于仅使用本地模型(准确率为 70.7%,成本为$0.00)。然而,advisor 模式在特定数据集(如 SQuAD v2 和 HotpotQA)中表现意外不佳。这归因于 advisor 在未获取源文档的情况下接收答案,依赖参数化记忆而非 grounding。Buddy System 的成功在于将文档上下文传递至审查层级,凸显了上下文对于实现准确 LLM 性能的重要性。