LLM推論をルーティングするためにRust製のエンロピーモニターを構築しました。ベンチマークの結果は以下の通りです。

フォロー

LLM推論をルーティングするためにRust製のエンロピーモニターを構築しました。ベンチマークの結果は以下の通りです。

フロントエンドLLM推論はコストがかかるため、階層化された推論アーキテクチャであるBuddy Systemの開発が促されています。このシステムは、高価なクラウド呼び出しに頼る前に、ローカルモデルの使用を最大化することを目的としています。Rust EntropyMonitorは、MLXを介してApple Silicon上で実行される4Bモデルによるローカル生成中に、トークンごとの不確実性を追跡します。ローカルモデルが高いエントロピーを示し、真の不確実性を示す場合、特に節の境界で、spaCy NERは関連する固有表現または名詞句を特定します。次に、sentence-transformersリトリーバーが、コンテキストに関連するパッセージチャンクを見つけます。クラウドモデルであるSonnetは、不確実な事実とグラウンディングドキュメントで構成されるターゲットクエリを受け取ります。重要なのは、クラウド呼び出しは非同期であり、ローカル生成がブロックされないことを保証することです。古典的なツールは、数学や単位などの決定論的なタスクをゼロコストで処理します。ベンチマークによると、Buddy Systemは、ローカルのみ（精度70.7％、コスト0.00ドル）と比較して、最小限のコストで71.4％の精度を達成しています。しかし、アドバイザーパターンは、SQuAD v2やHotpotQAなどの特定のデータセットで驚くほどパフォーマンスが低下しました。これは、アドバイザーがソースドキュメントなしで回答を受け取り、グラウンディングではなくパラメトリックメモリに依存していることに起因します。Buddy Systemの成功は、レビュー層にドキュメントコンテキストを渡すことにあり、正確なLLMパフォーマンスにおけるコンテキストの重要性を示しています。

I built a Rust entropy monitor to route LLM inference — here's what the benchmark showed dev.to

RSS Hunter • 昨日