Implementare l'accesso web in basi di conoscenza per Amazon Bedrock

Amazon Bedrock è un servizio completamente gestito che offre accesso a una varietà di modelli di base ad alte prestazioni (FMs) da parte di società di IA leader attraverso un'unica API. Fornisce funzionalità per costruire applicazioni di IA sicure, private e responsabili. Gli utenti possono sperimentare e personalizzare FMs utilizzando i loro dati aziendali e creare agenti per compiti che utilizzano i loro sistemi e fonti di dati. Le Knowledge Bases per Amazon Bedrock consentono l'aggregazione delle fonti di dati in un repository comprensivo, facilitando le applicazioni che utilizzano la Generazione Rafforzata da Recupero (RAG). I clienti possono estendere la capacità di strisciare e indicizzare i loro siti web pubblici integrando i web crawler nel knowledge base, migliorando l'accuratezza e la pertinenza delle applicazioni di IA. Il web crawler recupera dati dagli URL forniti, attraversando i link figli all'interno dello stesso dominio principale. Supporta vari tipi di file come PDF e CSV, ma rispetta le direttive robots.txt e stabilisce limiti di strisciamento. Diversi scope di sincronizzazione controllano l'inclusione delle pagine web, come Predefinito, Solo host e Sottodomini, ognuno definendo percorsi specifici per il crawler. I filtri utilizzando regex possono raffinare ulteriormente l'ambito, escludendo o includendo URL in base a modelli specifici. Ad esempio, escludendo URL che terminano in .pdf o includendo URL che contengono "prodotti". Per creare una knowledge base con un web crawler, gli utenti possono seguire un processo passo passo sulla console di Amazon Bedrock, specificando configurazioni come URL di origine, scope di sincronizzazione e modelli di inclusione/esclusione. Possono selezionare modelli di embedding e database di vettori, utilizzando l'opzione Quick create per le raccolte di ricerca vettoriale Amazon OpenSearch Serverless. Testare la knowledge base coinvolge la sincronizzazione della fonte di dati e l'interrogazione del modello con prompt specifici. Le citazioni nelle risposte collegano alle pagine web di origine, garantendo l'accuratezza delle risposte. L'impostazione può anche essere eseguita in modo programmatico utilizzando l'SDK AWS per Python (Boto3), specificando modelli di embedding e configurazioni del web crawler. Monitorare lo stato di strisciamento web è possibile attraverso i log di Amazon CloudWatch, che segnalano gli URL visitati. Per pulire le risorse, gli utenti devono eliminare la knowledge base, il database di vettori e il ruolo di servizio IAM. Amazon Bedrock migliora le applicazioni di IA generative integrando dati web diversi e aggiornati in modo efficiente.

aws.amazon.com

Implement web crawling in Knowledge Bases for Amazon Bedrock

RSS Hunter

2024-07-31

Create attached notes ...