AI и ML Новости на русском

Реализовать веб-ползение в Базах знаний для Amazon Bedrock

Amazon Bedrock - это полностью управляемый сервис, предоставляющий доступ к различным высокопроизводительным моделям фундамента (FM) от ведущих компаний в области ИИ через единый API. Он предоставляет возможности для создания безопасных, частных и ответственных приложений ИИ. Пользователи могут экспериментировать с FM-моделями, настраивать их, используя данные своего предприятия, и создавать агентов для задач, используя свои системы и источники данных. Базы знаний для Amazon Bedrock позволяют объединять источники данных во всеобъемлющее хранилище, облегчая работу приложений, использующих расширенный поиск (Retrieval Augmented Generation, RAG). Заказчики могут расширить возможности по ползанию и индексированию своих общедоступных веб-сайтов, интегрировав в базу знаний веб-ползунки, что повышает точность и релевантность приложений искусственного интеллекта. Веб-краулер собирает данные с предоставленных URL-адресов, обходя дочерние ссылки в пределах одного основного домена. Он поддерживает различные типы файлов, например PDF и CSV, но при этом соблюдает директивы robots.txt и устанавливает границы для краулинга. Различные диапазоны синхронизации контролируют включение веб-страниц, такие как "По умолчанию", "Только хост" и "Субдомены", каждый из которых определяет конкретные пути для краулера. Фильтры, использующие regex, могут уточнять границы, исключая или включая URL-адреса на основе заданных шаблонов. Например, исключить URL-адреса, заканчивающиеся на .pdf, или включить URL-адреса, содержащие "products". Чтобы создать базу знаний с помощью веб-краулера, пользователи могут следовать пошаговому процессу в консоли Amazon Bedrock, задавая такие параметры, как исходные URL-адреса, область синхронизации и шаблоны включения/исключения. Они могут выбрать модели встраивания и векторные базы данных, используя опцию быстрого создания коллекций векторного поиска Amazon OpenSearch Serverless. Тестирование базы знаний включает синхронизацию источника данных и запрос к модели с помощью определенных подсказок. Цитаты в ответах ссылаются на веб-страницы источника, что обеспечивает точность ответа. Настройку также можно выполнить программно с помощью AWS SDK для Python (Boto3), указав модели встраивания и конфигурации веб-краулера. Мониторинг состояния веб-краулера возможен через журналы Amazon CloudWatch, которые сообщают о посещаемых URL-адресах. Чтобы очистить ресурсы, пользователям необходимо удалить базу знаний, базу векторов и роль службы IAM. Amazon Bedrock улучшает работу приложений генеративного ИИ благодаря эффективному использованию разнообразных и актуальных веб-данных.
favicon
aws.amazon.com
Implement web crawling in Knowledge Bases for Amazon Bedrock
Create attached notes ...