KI- und ML-Nachrichten auf Deutsch

Implementieren Sie Web-Crawling in Wissensbasen für Amazon Bedrock

Amazon Bedrock ist ein vollständig verwaltetes Service, der Zugang zu einer Vielzahl von leistungsstarken Fundamentmodellen (FMs) von führenden AI-Unternehmen über eine einzige API bietet. Es bietet Funktionen zum Erstellen von sicheren, privaten und verantwortungsvollen AI-Anwendungen. Benutzer können mit FMs experimentieren und anpassen, indem sie ihre Unternehmensdaten verwenden und Agenten für Aufgaben erstellen, die ihre Systeme und Datenquellen nutzen. Knowledge Bases für Amazon Bedrock ermöglichen die Zusammenführung von Datenquellen in ein umfassendes Repository, was Anwendungen erleichtert, die Retrieval Augmented Generation (RAG) verwenden. Kunden können die Fähigkeit erweitern, ihre öffentlich zugänglichen Websites zu crawlen und zu indexieren, indem sie Web-Crawler in die Knowledge Base integrieren, was die Genauigkeit und Relevanz von AI-Anwendungen erhöht. Der Web-Crawler holt Daten von bereitgestellten URLs, durchsucht Kind-Links innerhalb der gleichen Hauptdomäne und unterstützt verschiedene Dateitypen wie PDFs und CSVs, aber beachtet robots.txt-Direktiven und setzt Krawlerschranken. Unterschiedliche Sync-Scope steuern die Einbeziehung von Webseiten, wie z.B. Standard, Host-only und Subdomains, jede definiert spezifische Pfade für den Crawler. Filter mit Regex können den Scope weiter verfeinern, indem URLs basierend auf festgelegten Mustern ausgeschlossen oder eingeschlossen werden. Zum Beispiel, URLs, die mit .pdf enden, ausschließen oder URLs, die "products" enthalten, einschließen. Um eine Knowledge Base mit einem Web-Crawler zu erstellen, können Benutzer ein schrittweises Verfahren auf der Amazon Bedrock-Konsole durchführen, indem sie Konfigurationen wie Quell-URLs, Sync-Scope und Einschluss/Ausschluss-Muster angeben. Sie können auch Einbettungsmodelle und Vektor-Datenbanken auswählen und die Quick-create-Option für Amazon OpenSearch Serverless-Vektor-Suchsammlungen verwenden. Das Testen der Knowledge Base umfasst das Synchronisieren der Datenquelle und das Abfragen des Modells mit bestimmten Prompts. Zitate in den Antworten verlinken zu den Quellwebseiten, um die Genauigkeit der Antworten zu gewährleisten. Die Einrichtung kann auch programmatisch durchgeführt werden, indem die AWS SDK für Python (Boto3) verwendet wird, wobei Einbettungsmodelle und Web-Crawler-Konfigurationen angegeben werden. Der Status des Web-Crawls kann über Amazon CloudWatch-Logs überwacht werden, die die besuchten URLs melden. Um Ressourcen zu bereinigen, müssen Benutzer die Knowledge Base, die Vektor-Datenbank und die IAM-Dienstrolle löschen. Amazon Bedrock verbessert generative AI-Anwendungen, indem es diverse, aktuelle Web-Daten effizient einbindet.
favicon
aws.amazon.com
Implement web crawling in Knowledge Bases for Amazon Bedrock
Create attached notes ...