简体中文版人工智能和 ML 新闻

在 Amazon Bedrock 中实现知识库 Web 爬虫

Amazon Bedrock是一个完全托管的服务,通过单个API提供对领先AI公司的高性能基础模型(FM)的访问。它提供了构建安全、私有和负责任AI应用程序的功能。用户可以使用企业数据来实验和定制FM,并构建代理来执行任务,利用他们的系统和数据源。Amazon Bedrock的知识库允许聚合数据源到一个综合存储库中,以便于使用检索增强生成(RAG)的应用程序。 客户可以通过将Web爬虫集成到知识库中,以扩展对公共网站的爬行和索引能力,从而提高AI应用程序的准确性和相关性。Web爬虫从提供的URL中获取数据,遍历同一主要域中的子链接。它支持多种文件类型,如PDF和CSV,但遵守robots.txt指令并设置爬行边界。 不同的同步范围控制Web页面的包括,如默认、仅主机和子域,每个都定义了爬虫的特定路径。使用regex的过滤器可以进一步细化范围,根据设置的模式排除或包括URL。例如,排除以.pdf结尾的URL或包括包含“products”的URL。 要创建一个带有Web爬虫的知识库,用户可以按照Amazon Bedrock控制台上的逐步过程来指定配置,如源URL、同步范围和包括/排除模式。他们可以选择嵌入模型和向量数据库,使用Amazon OpenSearch Serverless向量搜索集合的快速创建选项。 测试知识库涉及到同步数据源并使用特定的提示来查询模型。响应中的引用链接到源Web页面,以确保响应的准确性。该设置也可以通过使用AWS SDK for Python(Boto3)来编程实现,指定嵌入模型和Web爬虫配置。 可以通过Amazon CloudWatch日志来监控Web爬行状态,这些日志报告了正在访问的URL。要清理资源,用户需要删除知识库、向量数据库和IAM服务角色。Amazon Bedrock通过高效地整合多样化、最新的Web数据来增强生成AI应用程序。
favicon
aws.amazon.com
Implement web crawling in Knowledge Bases for Amazon Bedrock
Create attached notes ...