Amazon Bedrock es un servicio completamente gestionado que ofrece acceso a una variedad de modelos de fundamento de alto rendimiento (FM) de las principales empresas de IA a través de una sola API. Proporciona capacidades para construir aplicaciones de IA seguras, privadas y responsables. Los usuarios pueden experimentar y personalizar FM utilizando sus datos empresariales y construir agentes para tareas utilizando sus sistemas y fuentes de datos. Las Bases de Conocimiento para Amazon Bedrock permiten la agregación de fuentes de datos en un repositorio integral, facilitando aplicaciones que utilizan Generación Aumentada de Recuperación (RAG).
Los clientes pueden ampliar la capacidad de rastrear y indexar sus sitios web públicos integrando rastreadores web en la base de conocimiento, lo que mejora la precisión y la relevancia de las aplicaciones de IA. El rastreador web recopila datos de las direcciones URL proporcionadas, atravesando enlaces hijos dentro del mismo dominio principal. Soporta varios tipos de archivos como PDF y CSV, pero respeta las directivas robots.txt y establece límites de rastreo.
Diferentes ámbitos de sincronización controlan la inclusión de páginas web, como Predeterminado, Solo host y Subdominios, cada uno definiendo rutas específicas para el rastreador. Filtros utilizando regex pueden refinar aún más el ámbito, excluyendo o incluyendo direcciones URL según patrones establecidos. Por ejemplo, excluyendo direcciones URL que terminan en .pdf o incluyendo direcciones URL que contienen "productos".
Para crear una base de conocimiento con un rastreador web, los usuarios pueden seguir un proceso paso a paso en la consola de Amazon Bedrock, especificando configuraciones como direcciones URL de origen, ámbito de sincronización y patrones de inclusión/exclusión. Pueden seleccionar modelos de incrustación y bases de datos vectoriales, utilizando la opción de Crear rápido para colecciones de búsqueda vectorial sin servidor de Amazon OpenSearch.
Probar la base de conocimiento implica sincronizar la fuente de datos y consultar el modelo con prompts específicos. Las citas en las respuestas enlazan a las páginas web de origen, asegurando la precisión de las respuestas. La configuración también se puede realizar de manera programática utilizando el SDK de AWS para Python (Boto3), especificando modelos de incrustación y configuraciones del rastreador web.
El estado del rastreo web se puede monitorear a través de los registros de Amazon CloudWatch, que informan sobre las direcciones URL visitadas. Para limpiar los recursos, los usuarios necesitan eliminar la base de conocimiento, la base de datos vectorial y el rol de servicio IAM. Amazon Bedrock mejora las aplicaciones de IA generativas al incorporar datos web diversificados y actualizados de manera eficiente.
aws.amazon.com
Implement web crawling in Knowledge Bases for Amazon Bedrock
Create attached notes ...
