Implementere web-crawling i kunnskapsbaserte for Amazon Bedrock

Amazon Bedrock er en fullt administrert tjeneste som tilbyr tilgang til en rekke høytydende grunnmodeller (FMs) fra ledende AI-selskaper via en enkel API. Den tilbyr muligheter for å bygge sikre, private og ansvarlige AI-applikasjoner. Brukere kan eksperimentere med og tilpasse FMs ved hjelp av deres bedriftsdata og bygge agenter for oppgaver som utnytter deres systemer og datakilder. Knowledge Bases for Amazon Bedrock lar deg aggregere datakilder i et omfattende repositorium, noe som faciliterer applikasjoner som bruker Henting Forsterket Generering (RAG). Kunder kan utvide kapasiteten til å crawl og indeksere sine offentlige nettsteder ved å integrere web-crawlers i knowledge base, noe som forbedrer nøyaktigheten og relevansen av AI-applikasjonene. Web-crawleren henter data fra angitte URLer, traverserer barnlenker innen samme primære domene. Den støtter forskjellige filtyper som PDF-er og CSV-er, men adlyder robots.txt-direktiver og setter grenser for crawling. Forskjellige sync-skoper kontrollerer inklusjonen av websider, som for eksempel Standard, Host only og Subdomains, hver definere spesifikke stier for crawleren. Filter ved hjelp av regex kan refines scope ytterligere, ekskludere eller inkludere URLer basert på satt mønster. For eksempel, ekskludere URLer som slutter på .pdf eller inkludere URLer som inneholder "products". For å opprette en knowledge base med en web-crawler, kan brukere følge en steg-for-steg-prosess på Amazon Bedrock-konsolen, spesifisere konfigurasjoner som kilde-URLer, sync-skope og inklusjon/eksklusjon-mønstre. De kan velge innføringsmodeller og vektor-databaser, bruke Quick create-opsjonen for Amazon OpenSearch Serverless-vektor-søk-samlinger. Å teste knowledge base innebærer å synkronisere datakilden og spørre modellen med spesifikke prompeter. Sitater i svarene lenker til kilde-web-sider, sikrer svar-akkurateten. Oppsettet kan også gjøres programmeringsmessig ved hjelp av AWS SDK for Python (Boto3), spesifisere innføringsmodeller og web-crawler-konfigurasjoner. Å overvåke web-crawl-status er mulig via Amazon CloudWatch-logger, som rapporterer URLer som besøkes. For å rydde opp ressurser, må brukere slette knowledge base, vektor-database og IAM-tjenesterolle. Amazon Bedrock forbedrer generative AI-applikasjoner ved å inkorporere diverse, oppdaterte web-data effektivt.

aws.amazon.com

Implement web crawling in Knowledge Bases for Amazon Bedrock

RSS Hunter

2024-07-31

Create attached notes ...