AIとMLの日本語ニュース

Amazon Bedrockのナレッジベースでウェブクローリングを実装

Amazon Bedrockは、主要なAI企業が提供する高性能の基礎モデル(FM)にアクセスするための完全に管理されたサービスです。単一のAPIを通じて、セキュアでプライベートで責任あるAIアプリケーションを構築する機能を提供します。ユーザーは、企業データを使用してFMを実験しカスタマイズし、タスクのためのエージェントを構築できます。Amazon Bedrockのナレッジベースは、データソースを包括的なリポジトリに集約し、Retrieval Augmented Generation(RAG)を使用するアプリケーションを可能にします。 顧客は、Webクローラーをナレッジベースに統合することで、クロールしてインデックス化する能力を拡張できます。このWebクローラーは、指定されたURLからデータをフェッチし、同じプライマリドメイン内の子リンクをトラバースします。PDFやCSVなどの多くのファイルタイプをサポートしているが、robots.txtの指令に従い、クロールの境界を設定します。 異なる同期スコープがWebページの包含を制御し、Default、Host only、Subdomainsの各スコープは、クローラーが特定のパスを定義します。regexを使用したフィルターでスコープをさらに絞り込むことができます。例えば、.pdfで終わるURLを除外し、"products"を含むURLを含めることができます。 Webクローラーを使用してナレッジベースを作成するには、Amazon Bedrockコンソールで手順に従い、ソースURL、同期スコープ、包含/除外パターンを指定します。Quick createオプションを使用して、Amazon OpenSearch Serverlessベクトル検索コレクションを選択し、埋め込みモデルやベクトルデータベースを設定します。 ナレッジベースのテストは、データソースを同期し、特定のプロンプトでモデルを照会します。レスポンスには、ソースWebページへの参照が含まれるため、レスポンスの正確さが確保されます。この設定は、AWS SDK for Python(Boto3)を使用してプログラム的に実行することもできます。 Webクロールの状況を監視するには、Amazon CloudWatchログを使用します。このログは、訪問されたURLをレポートします。リソースをクリーンアップするには、ナレッジベース、ベクトルデータベース、IAMサービスロールを削除します。Amazon Bedrockは、Webデータを効率的に統合し、ジェネレーティブAIアプリケーションを強化します。
favicon
aws.amazon.com
Implement web crawling in Knowledge Bases for Amazon Bedrock
Create attached notes ...