Der Retrieval-Augmented-Generation-(RAG)-Ansatz wird in vielen cutting-edge-Anwendungen eingesetzt, und ein moderner RAG-Stack besteht aus mehreren Komponenten. Ein hochwertiges Large-Language-Modell (LLM) wird benötigt, und Entwickler können zwischen offenen Modellen wie Llama 3.3 oder API-getriebenen Modellen wie OpenAIs GPT-4 wählen. Frameworks wie LangChain, LlamaIndex und Haystack helfen, Komponenten zusammenzufügen und bieten Tools für Aufgaben wie Suche und Berechnung. Vektor-Datenbanken wie Chroma, Qdrant und Weaviate werden verwendet, um chunked Wissen zu speichern und schnelle Ähnlichkeitssuche zu ermöglichen. Daten-Extraktion umfasst das Einlesen von Wissen aus verschiedenen Quellen, einschließlich Web-Scraping, Dokumenten-Parsing und APIs, und wird typischerweise automatisiert mithilfe von Workflow-Tools. LLM-Zugriffsschichten wie Open LLM Hosts und Cloud-Anbieter helfen, Code von spezifischen Anbietern zu entkoppeln. Text- Einbettungen wie Sentence-BERT, BGE und OpenAI- Einbettungen werden verwendet, um Retrieval zu ermöglichen, und ihre Qualität wird anhand von Metriken wie Recall@k und MRR bewertet. Bewertung ist entscheidend, und Tools wie RAGas, Giskard und TruLens helfen, Metriken wie Relevanz, Genauigkeit und Kosten zu messen. Ein visueller Überblick über den Stack zeigt, wie diese Komponenten interagieren, und Entwickler können diesen Stack verwenden, um Hochleistungs-AI-Anwendungen zu bauen.
dev.to
A Simple Overview of The Modern RAG Developer’s Stack
Create attached notes ...
