최첨단 애플리케이션에서 Retrieval-Augmented Generation (RAG) 접근 방식이 널리 사용되며, 현대적인 RAG 스택은 여러 구성 요소로 구성됩니다. 고품질 대규모 언어 모델(LLM)이 필요하며, 개발자는 Llama 3.3과 같은 오픈 모델 또는 OpenAI의 GPT-4와 같은 API 기반 모델 중에서 선택할 수 있습니다. LangChain, LlamaIndex, Haystack과 같은 프레임워크는 구성 요소들을 연결하고 검색 및 계산과 같은 작업을 위한 도구를 제공합니다. Chroma, Qdrant, Weaviate와 같은 벡터 데이터베이스는 청크된 지식을 저장하고 빠른 유사성 검색을 가능하게 합니다. 데이터 추출은 웹 스크래핑, 문서 파싱, API를 포함한 다양한 소스에서 지식을 수집하는 과정을 포함하며, 일반적으로 워크플로우 도구를 사용하여 자동화됩니다. Open LLM Hosts 및 Cloud Providers와 같은 LLM 액세스 계층은 특정 공급자로부터 코드를 분리하는 데 도움이 됩니다. Sentence-BERT, BGE, OpenAI Embeddings와 같은 텍스트 임베딩은 검색을 가능하게 하며, recall@k 및 mrr과 같은 지표를 사용하여 품질을 평가합니다. 평가는 매우 중요하며, RAGas, Giskard, TruLens와 같은 도구는 관련성, 정확성, 비용과 같은 지표를 측정하는 데 도움이 됩니다. 스택의 시각적 개요는 이러한 구성 요소들이 어떻게 상호 작용하는지 보여주며, 개발자는 이 스택을 사용하여 고성능 AI 애플리케이션을 구축할 수 있습니다.
dev.to
A Simple Overview of The Modern RAG Developer’s Stack
