Actualités de l'IA et du ML en français

Mettre en œuvre le crawl web dans les bases de connaissances pour Amazon Bedrock

Amazon Bedrock est un service entièrement géré qui offre accès à une variété de modèles de base à haute performance (FM) provenant d'entreprises de pointe en IA via une seule API. Il permet de créer des applications d'IA sécurisées, privées et responsables. Les utilisateurs peuvent expérimenter et personnaliser les FM en utilisant leurs propres données d'entreprise et construire des agents pour des tâches en utilisant leurs systèmes et leurs sources de données. Les bases de connaissances pour Amazon Bedrock permettent l'agrégation de sources de données en un référentiel exhaustif, facilitant les applications qui utilisent la génération augmentée de récupération (RAG). Les clients peuvent étendre la capacité de crawl et d'indexation de leurs sites web publics en intégrant des crawlers web dans la base de connaissances, améliorant ainsi l'exactitude et la pertinence des applications d'IA. Le crawler web récupère des données à partir des URL fournies, en parcourant les liens enfants dans le même domaine principal. Il prend en charge divers types de fichiers comme les PDF et les CSV, mais respecte les directives robots.txt et fixe des limites de crawl. Différents scopes de synchronisation contrôlent l'inclusion de pages web, comme Par défaut, Hôte uniquement et Sous-domaines, chacun définissant des chemins spécifiques pour le crawler. Des filtres utilisant des expressions régulières peuvent affiner encore le scope, en excluant ou en incluant des URL en fonction de modèles établis. Par exemple, exclure les URL se terminant par .pdf ou inclure les URL contenant "produits". Pour créer une base de connaissances avec un crawler web, les utilisateurs peuvent suivre un processus étape par étape sur la console Amazon Bedrock, en spécifiant des configurations telles que les URL sources, le scope de synchronisation et les modèles d'inclusion/exclusion. Ils peuvent sélectionner des modèles d'intégration et des bases de données vectorielles, en utilisant l'option de création rapide pour les collections de recherche vectorielles Amazon OpenSearch Serverless. Tester la base de connaissances implique de synchroniser la source de données et d'interroger le modèle avec des prompts spécifiques. Les citations dans les réponses lient à des pages web sources, garantissant l'exactitude des réponses. La configuration peut également être faite de manière programmatique en utilisant le SDK AWS pour Python (Boto3), en spécifiant des modèles d'intégration et des configurations de crawler web. Surveiller le statut de crawl est possible via les journaux Amazon CloudWatch, qui signalent les URL visitées. Pour nettoyer les ressources, les utilisateurs doivent supprimer la base de connaissances, la base de données vectorielle et le rôle de service IAM. Amazon Bedrock améliore les applications d'IA génératives en incorporant efficacement des données web diverses et à jour.
favicon
aws.amazon.com
Implement web crawling in Knowledge Bases for Amazon Bedrock
Create attached notes ...