RSS DEV 커뮤니티
팔로우
LLM 추론을 라우팅하기 위해 Rust 엔트로피 모니터를 구축했습니다. 벤치마크 결과는 다음과 같습니다.
프론티어 LLM 추론은 비용이 많이 들기 때문에 계층적 추론 아키텍처인 Buddy System이 개발되었습니다. 이 시스템은 비싼 클라우드 호출에 의존하기 전에 로컬 모델 사용을 최대화하는 것을 목표로 합니다. Rust EntropyMonitor는 MLX를 통해 Apple Silicon에서 실행되는 4B 모델의 로컬 생성 중에 토큰별 불확실성을 추적합니다. 로컬 모델이 높은 엔트로피를 나타내어 진정한 불확실성을 나타낼 때, 특히 절 경계에서 spaCy NER은 관련 명명된 개체 또는 명사구를 식별합니다. 그런 다음 sentence-transformers 검색기는 컨텍스트에 대한 관련 구절 청크를 찾습니다. 클라우드 모델인 Sonnet은 불확실한 사실과 근거 문서를 포함하는 대상 쿼리를 받습니다. 중요한 것은 클라우드 호출이 비동기식이므로 로컬 생성이 차단되지 않는다는 것입니다. 고전적인 도구는 수학 및 단위와 같은 결정론적 작업을 0 비용으로 처리합니다. 벤치마크에 따르면 Buddy System은 로컬 전용(70.7% 정확도, $0.00 비용)에 비해 최소 비용으로 71.4%의 정확도를 달성합니다. 그러나 어드바이저 패턴은 SQuAD v2 및 HotpotQA와 같은 특정 데이터 세트에서 놀랍게도 성능이 저하되었습니다. 이는 어드바이저가 소스 문서 없이 답변을 받고 근거 대신 매개변수 메모리에 의존하기 때문입니다. Buddy System의 성공은 검토 계층에 문서 컨텍스트를 전달하는 데 있으며, 이는 정확한 LLM 성능에 대한 컨텍스트의 중요성을 보여줍니다.