Implementér web-krydning i videnbasen for Amazon Bedrock

Amazon Bedrock er en fuldt administreret tjeneste, der tilbyder adgang til en række højtydende grundlæggende modeller (FMs) fra førende AI-virksomheder via en enkelt API. Den tilbyder muligheder for at opbygge sikre, private og ansvarlige AI-applikationer. Brugere kan eksperimentere med og tilpasse FMs ved hjælp af deres virksomhedsdata og opbygge agenter for opgaver, der anvender deres systemer og datakilder. Knowledge Bases for Amazon Bedrock muliggør aggregation af datakilder i en omfattende repository, hvilket faciliterer applikationer, der anvender Retrieval Augmented Generation (RAG). Kunder kan udvide kapaciteten til at crawle og indexere deres offentligt tilgængelige websites ved at integrere web-crawlers i knowledge basen, hvilket forbedrer nøjagtigheden og relevansen af AI-applikationer. Web-crawleren henter data fra angivne URLs, traverserer barnlinks inden for samme primære domæne. Den understøtter forskellige filtyper som PDF'er og CSV'er, men overholder robots.txt-direktiver og sætter crawl-grænser. Forskellige sync-skope kontrollerer, om web-sider skal medtages, såsom Standard, Værtselskab kun og Underdomæner, hvor hver definerer specifikke stier for crawleren. Filtrer med regex kan yderligere raffinere skopet, ekskludere eller inkludere URLs baseret på fastsatte mønstre. F.eks. ekskludere URLs, der ender på .pdf, eller inkludere URLs, der indeholder "products". For at oprette en knowledge base med en web-crawler kan brugere følge en trin-for-trin-proces på Amazon Bedrock-konsolen, hvor de specificerer konfigurationer som kilde-URL'er, sync-skope og inklusions/exklusions-mønstre. De kan vælge indlejningsmodeller og vektor-databaser, brugende Quick create-funktionen for Amazon OpenSearch Serverless vektor-søgningssamlinger. Testen af knowledge basen involverer synkronisering af datakilden og forespørgslen til modellen med specifikke prompts. Citater i svarene linker til kilde-web-sider, sikrende svarets nøjagtighed. Opsætningen kan også gøres programmatisk ved hjælp af AWS SDK for Python (Boto3), hvor indlejningsmodeller og web-crawler-konfigurationer specificeres. Overvågning af web-crawl-status er mulig via Amazon CloudWatch-logs, som rapporterer URLs, der besøges. For at rydde op i ressourcerne skal brugere slette knowledge basen, vektor-databasen og IAM-service-rollen. Amazon Bedrock forbedrer generative AI-applikationer ved at inkorporere diverse, opdaterede web-data effektivt.

aws.amazon.com

Implement web crawling in Knowledge Bases for Amazon Bedrock

RSS Hunter

2024-07-31

Create attached notes ...