Implementera webbsökning i kunskapsbasen för Amazon Bedrock

Amazon Bedrock är en fullständigt hanterad tjänst som erbjuder åtkomst till en mängd högpresterande grundmodeller (FMs) från ledande AI-företag via en enda API. Det tillhandahåller funktioner för att bygga säkra, privata och ansvarsfulla AI-applikationer. Användare kan experimentera med och anpassa FMs med hjälp av sina företagsdata och bygga agenter för uppgifter som använder deras system och datakällor. Knowledge Bases för Amazon Bedrock möjliggör aggregation av datakällor i en omfattande databas, vilket underlättar applikationer som använder sig av Retrieval Augmented Generation (RAG). Kunder kan utöka kapaciteten att crawla och indexera sina offentliga webbplatser genom att integrera webbcrawlers i knowledge basen, vilket förbättrar precisionen och relevansen i AI-applikationer. Webbcrawlen hämtar data från angivna URL:er, traverserar barnlänkar inom samma primära domän. Det stöder olika filtyper som PDF:er och CSV:er men respekterar robots.txt-direktiv och sätter gränser för crawlingen. Olika sync-scope styr inkorporeringen av webbsidor, såsom Standard, Endast värd och Underdomäner, var och en definierar specifika sökvägar för crawlen. Filter med regex kan ytterligare begränsa scope, exkludera eller inkludera URL:er baserat på satta mönster. Till exempel, exkludera URL:er som slutar på .pdf eller inkludera URL:er som innehåller "products". För att skapa en knowledge base med en webbcrawler kan användare följa en steg-för-steg-process på Amazon Bedrock-konsolen, specificera konfigurationer som käll-URL:er, sync-scope och inklusions/exklusionsmönster. De kan välja inbäddningsmodeller och vektor-databaser, använda Quick create-alternativet för Amazon OpenSearch Serverless-vektorsökningar. Testa knowledge basen innebär att synka datakällan och fråga modellen med specifika frågor. Citat i svaren länkar till källwebbsidor, vilket säkerställer svarens precision. Installationen kan också utföras programmatiskt med hjälp av AWS SDK för Python (Boto3), specificera inbäddningsmodeller och webbcrawler-konfigurationer. Att övervaka webbcrawlens status är möjligt via Amazon CloudWatch-loggar, som rapporterar URL:er som besöks. För att rensa upp resurser behöver användare radera knowledge basen, vektor-databasen och IAM-tjänsterollen. Amazon Bedrock förbättrar generativa AI-applikationer genom att inkorporera diversifierad, uppdaterad webbdata effektivt.

aws.amazon.com

Implement web crawling in Knowledge Bases for Amazon Bedrock

RSS Hunter

2024-07-31

Create attached notes ...