Я создал монитор энтропии на R... Заметка
Сообщество RSS DEV

Я создал монитор энтропии на Rust для маршрутизации инференса LLM — вот что показал бенчмарк

Инференс передовых больших языковых моделей является дорогостоящим, что стимулировало разработку Buddy System — многоуровневой архитектуры инференса. Эта система стремится максимально использовать локальные модели, прежде чем прибегать к дорогостоящим вызовам облачных сервисов. Монитор энтропии на Rust отслеживает неопределенность на уровне токенов во время локальной генерации 4-миллиардной модели, работающей на Apple Silicon через MLX. Когда локальная модель демонстрирует высокую энтропию, указывающую на реальную неопределенность, особенно на границах предложений, spaCy NER идентифицирует соответствующие именованные сущности или именные группы. Затем ретривер sentence-transformers находит релевантные фрагменты текста для контекста. Облачная модель Sonnet получает целевой запрос, состоящий из неопределенного факта и документа для обоснования. Важно отметить, что облачные вызовы асинхронны, что гарантирует отсутствие блокировки локальной генерации. Классические инструменты обрабатывают детерминированные задачи, такие как математика и единицы измерения, с нулевыми затратами. Тесты показывают, что Buddy System достигает 71,4% точности при минимальных затратах по сравнению с чисто локальным решением (70,7% точности, 0,00 долл. США). Однако шаблон советника неожиданно показал низкие результаты на конкретных наборах данных, таких как SQuAD v2 и HotpotQA. Это объясняется тем, что советник получает ответ без исходного документа, полагаясь на параметрическую память вместо обоснования. Успех Buddy System заключается в передаче контекста документа на уровень проверки, демонстрируя важность контекста для точной работы больших языковых моделей.