Сообщество RSS DEV

Простой обзор стека разработчика RAG современности

Подход Retrieval-Augmented Generation (RAG) используется в многих передовых приложениях, и современный стек RAG состоит из нескольких компонентов. Требуется высококачественная Большая Языковая Модель (БЯМ), и разработчики могут выбрать между открытыми моделями, такими как Llama 3.3, или моделями, управляемыми через API, такими как GPT-4 от OpenAI. Фреймворки, такие как LlamaIndex, Haystack и LangChain, помогают объединять компоненты и предоставляют инструменты для задач, таких как поиск и расчет. Векторные базы данных, как Chroma, Qdrant и Weaviate, используются для хранения фрагментированных данных и обеспечивают быстрый поиск по сходству. Извлечение данных включает в себя инжекцию знаний из различных источников, включая веб-скрейпинг, парсинг документов и API, и обычно автоматизируется с помощью инструментов workflow. Слои доступа к БЯМ, такие как Open LLM Hosts и Cloud Providers, помогают декуплировать код от конкретных провайдеров. Векторные вложения, такие как Sentence-BERT, BGE и OpenAI Embeddings, используются для включения поиска, и их качество оценивается с помощью метрик, таких как recall@k и mrr. Оценка является критически важной, и инструменты, такие как RAGas, Giskard и TruLens, помогают измерять метрики, такие как релевантность, точность и стоимость. Визуальный обзор стека демонстрирует, как эти компоненты взаимодействуют, и разработчики могут использовать этот стек для создания высокопроизводительных приложений ИИ.
dev.to
A Simple Overview of The Modern RAG Developer’s Stack
Create attached notes ...