Amazon Bedrock is een volledig beheerde dienst die toegang biedt tot een verscheidenheid aan high-performing foundation models (FMs) van leidende AI-bedrijven via een enkele API. Het biedt mogelijkheden om veilige, private en verantwoordelijke AI-toepassingen te bouwen. Gebruikers kunnen experimenteren met en customizen FMs met hun ondernemingsgegevens en agents bouwen voor taken die gebruikmaken van hun systemen en gegevensbronnen. Knowledge Bases voor Amazon Bedrock laten toe dat gegevensbronnen worden samengebracht in een omvattend repository, waardoor toepassingen kunnen worden gebouwd die gebruikmaken van Retrieval Augmented Generation (RAG).
Klanten kunnen de mogelijkheid om hun publiekelijk toegankelijke websites te crawlen en te indexeren door web crawlers in de kennisbasis te integreren, waardoor de nauwkeurigheid en relevantie van AI-toepassingen worden verbeterd. De web crawler haalt gegevens op van de verstrekte URLs, door child links binnen dezelfde primaire domein te navigeren. Het ondersteunt verschillende bestandstypen zoals PDF's en CSV's, maar houdt rekening met robots.txt-directieven en stelt crawlgrenzen.
Verschillende sync scopes controleren de opname van webpagina's, zoals Standaard, Alleen host en Subdomeinen, elk definiërend specifieke paden voor de crawler. Filters met regex kunnen de scope verder verfijnen, door URLs uit te sluiten of in te sluiten op basis van ingestelde patronen. Bijvoorbeeld, URLs eindigend op .pdf uitsluiten of URLs bevattend "products" insluiten.
Om een kennisbasis met een web crawler te creëren, kunnen gebruikers een stapsgewijze procedure volgen op de Amazon Bedrock-console, waarbij configuraties zoals bron-URL's, sync scope en inclusie/exclusiepatronen worden gespecificeerd. Zij kunnen embeddende modellen en vector databases selecteren, gebruikmakend van de Quick create-optie voor Amazon OpenSearch Serverless vector search collections.
Testen van de kennisbasis omvat het synchroniseren van de gegevensbron en het ondervragen van het model met specifieke prompts. Citaten in antwoorden linken naar bronwebpagina's, waardoor de nauwkeurigheid van de antwoorden wordt gewaarborgd. De setup kan ook worden gedaan via een programma met behulp van de AWS SDK voor Python (Boto3), waarbij embeddende modellen en web crawler-configuraties worden gespecificeerd.
Het monitoren van de web crawl-status is mogelijk via Amazon CloudWatch-logs, die rapporteren over bezochte URLs. Om resources op te ruimen, moeten gebruikers de kennisbasis, vector database en IAM-service rol verwijderen. Amazon Bedrock verbetert generatieve AI-toepassingen door diverse, actuele webgegevens efficiënt te integreren.
aws.amazon.com
Implement web crawling in Knowledge Bases for Amazon Bedrock
Create attached notes ...
