Retrieval-Augmented Generation (RAG) アプローチは、多くの最先端アプリケーションで使用されており、最新の RAG スタックはいくつかのコンポーネントで構成されています。 高品質の大規模言語モデル (LLM) が必要であり、開発者は Llama 3.3 のようなオープンモデル、または OpenAI の GPT-4 のような API ドリブンモデルから選択できます。 LangChain、LlamaIndex、Haystack などのフレームワークは、コンポーネントを結合し、検索や計算などのタスクのためのツールを提供します。 Chroma、Qdrant、Weaviate などのベクトルデータベースは、チャンク化された知識を保存し、高速な類似性検索を可能にするために使用されます。 データ抽出には、Webスクレイピング、ドキュメント解析、APIなど、さまざまなソースからの知識の取り込みが含まれ、通常はワークフローツールを使用して自動化されます。 Open LLM Hosts や Cloud Providers のような LLM アクセスレイヤーは、コードを特定のプロバイダーから分離するのに役立ちます。 Sentence-BERT、BGE、OpenAI Embeddings のようなテキスト埋め込みは、検索を可能にするために使用され、それらの品質は recall@k や mrr などの指標を使用して評価されます。 評価は非常に重要であり、RAGas、Giskard、TruLens などのツールは、関連性、精度、コストなどの指標を測定するのに役立ちます。 スタックの視覚的な概要は、これらのコンポーネントがどのように相互作用するかを示し、開発者はこのスタックを使用して高性能 AI アプリケーションを構築できます。
dev.to
A Simple Overview of The Modern RAG Developer’s Stack
