Сообщество RSS DEV
Подписаться
Как построить локальную поисковую систему, основанную на агентстве, которая действительно дает точную информацию
Текст обсуждает ограничения базового Retrieval-Augmented Generation (RAG) для локальных моделей обработки естественного языка (LLM), особенно в отношении фактической точности. Агентный поиск представлен как более совершенный подход, использующий цикл использования инструментов, где модель выполняет поиск, уточняет запросы и синтезирует ответы. Этот метод позволяет LLM проверять информацию, устраняя недостатки однопроходного извлечения. В статье объясняется, как настроить систему агентного поиска на одном RTX 3090 с помощью квантования модели, чтобы поместить большую модель. Она описывает важные компоненты, включая обслуживание модели с помощью llama.cpp или vllm, бэкенды поиска, такие как SearXNG, и эффективную инженерию системных подсказок. Ключ к успеху заключается в точных подсказках, контроле итераций поиска и мониторинге использования ресурсов. Статья подчеркивает достижения в области открытых моделей, методов квантования и стеков обслуживания, которые делают локальный агентный поиск жизнеспособным. Автор подчеркивает сдвиг от размера модели к инженерии как основной задаче и заключает, что это значительный шаг на пути к обеспечению частного, автономного и экономически эффективного использования LLM.