O Amazon Bedrock é um serviço totalmente gerenciado que oferece acesso a uma variedade de modelos de fundação de alto desempenho (FMs) de empresas de IA líderes via uma única API. Ele fornece capacidades para construir aplicativos de IA seguros, privados e responsáveis. Os usuários podem experimentar e personalizar FMs usando seus dados empresariais e construir agentes para tarefas utilizando seus sistemas e fontes de dados. Bases de Conhecimento para Amazon Bedrock permitem a agregação de fontes de dados em um repositório abrangente, facilitando aplicativos que usam Geração Aumentada por Recuperação (RAG).
Os clientes podem ampliar a capacidade de rastrear e indexar seus sites web públicos integrando crawlers web na base de conhecimento, melhorando a precisão e a relevância dos aplicativos de IA. O crawler web busca dados em URLs fornecidas, percorrendo links filhos dentro do mesmo domínio principal. Ele suporta vários tipos de arquivos, como PDFs e CSVs, mas respeita as diretrizes robots.txt e define limites de rastreamento.
Diferentes scopes de sincronização controlam a inclusão de páginas web, como Padrão, Host only e Subdomains, cada um definindo caminhos específicos para o crawler. Filtros usando regex podem refinar o escopo ainda mais, excluindo ou incluindo URLs com base em padrões definidos. Por exemplo, excluindo URLs que terminam em .pdf ou incluindo URLs que contenham "produtos".
Para criar uma base de conhecimento com um crawler web, os usuários podem seguir um processo passo a passo na console do Amazon Bedrock, especificando configurações como URLs de origem, escopo de sincronização e padrões de inclusão/exclusão. Eles podem selecionar modelos de embutimento e bancos de dados de vetores, usando a opção de criação rápida para coleções de busca de vetores do Amazon OpenSearch Serverless.
Testar a base de conhecimento envolve sincronizar a fonte de dados e consultar o modelo com prompts específicos. Citações nas respostas linkam para as páginas web de origem, garantindo a precisão das respostas. O setup também pode ser feito programaticamente usando o AWS SDK para Python (Boto3), especificando modelos de embutimento e configurações de crawler web.
Monitorar o status do crawl web é possível por meio de logs do Amazon CloudWatch, que relatam URLs sendo visitadas. Para limpar recursos, os usuários precisam deletar a base de conhecimento, o banco de dados de vetores e a função de serviço IAM. O Amazon Bedrock melhora aplicativos de IA gerativos ao incorporar dados web diversificados e atualizados de forma eficiente.
aws.amazon.com
Implement web crawling in Knowledge Bases for Amazon Bedrock
Create attached notes ...
