我构建了一个 Rust 熵值监控器用于路由 LLM 推理——基准测试结果显示如下

关注

我构建了一个 Rust 熵值监控器用于路由 LLM 推理——基准测试结果显示如下

前沿大语言模型（LLM）推理成本高昂，由此催生了 Buddy System 这一分层推理架构。该系统旨在优先最大化本地模型的使用，仅在必要时才调用昂贵的云端服务。一个基于 Rust 实现的 EntropyMonitor 通过 MLX 在 Apple Silicon 上运行 4B 本地模型时，追踪每个 token 的不确定性。当本地模型表现出高熵值，表明存在真实不确定性（特别是在从句边界处）时，spaCy 命名实体识别（NER）会识别相关的命名实体或名词短语。随后，sentence-transformers 检索器查找相关的段落片段以提供上下文。云端模型 Sonnet 接收一个针对性查询，包含不确定的事实及其 grounding 文档。重要的是，云端调用采用异步方式，确保本地生成过程不会被阻塞。经典工具以零成本处理确定性任务，如数学计算和单位换算。基准测试表明，Buddy System 在保持极低成本的同时，准确率达到 71.4%，优于仅使用本地模型（准确率为 70.7%，成本为$0.00）。然而，advisor 模式在特定数据集（如 SQuAD v2 和 HotpotQA）中表现意外不佳。这归因于 advisor 在未获取源文档的情况下接收答案，依赖参数化记忆而非 grounding。Buddy System 的成功在于将文档上下文传递至审查层级，凸显了上下文对于实现准确 LLM 性能的重要性。

I built a Rust entropy monitor to route LLM inference — here's what the benchmark showed dev.to

RSS Hunter • 昨天