Amazon Bedrock는 최고의 AI 회사에서 제공하는 다양한 고성능 기본 모델(FM)에 대한 액세스를 제공하는 완전히 관리되는 서비스입니다. 이를 통해 사용자는 안전하고 사적이며 책임 있는 AI 애플리케이션을 구축할 수 있습니다. 사용자는 기업 데이터를 사용하여 FM을 실험하고 사용자 지정할 수 있으며, 태스크 에이전트를 구축하여 시스템 및 데이터 소스를 활용할 수 있습니다. Amazon Bedrock의 지식베이스(Knowledge Bases)는 데이터 소스를 포괄적인 저장소로 집계하여, 검색 보완 생성(RAG) 애플리케이션을 지원합니다.
고객은 웹 크롤러를 지식베이스에 통합하여 공용 웹 사이트를 크롤링하고 색인화할 수 있습니다. 이렇게 하면 AI 애플리케이션의 정확도와 관련성이 향상됩니다. 웹 크롤러는 제공된 URL에서 데이터를 가져와 같은 기본 도메인 내의 자식 링크를 탐색합니다. PDF와 CSV와 같은 다양한 파일 형식을 지원하지만 robots.txt 지시문에 따르며 크롤링 경계를 설정합니다.
다른 동기화 범위는 웹 페이지의 포함 여부를 제어합니다. 예를 들어 기본, 호스트 전용, 하위 도메인 등입니다. 정규 표현식 필터를 사용하여 범위를 추가로 정제할 수 있습니다. 예를 들어 .pdf로 끝나는 URL을 제외하거나 "products"를 포함하는 URL을 포함할 수 있습니다.
지식베이스를 웹 크롤러와 함께 생성하려면 Amazon Bedrock 콘솔에서 단계별 과정을 따르면 됩니다. 여기에는 소스 URL, 동기화 범위, 포함/제외 패턴이 포함됩니다. 사용자는 또한 임베딩 모델과 벡터 데이터베이스를 선택할 수 있습니다. AWS SDK for Python(Boto3)을 사용하여 프로그래밍 방식으로 설정할 수도 있습니다.
지식베이스를 테스트하려면 데이터 소스를 동기화하고 특정 프롬프트로 모델을 쿼리합니다. 응답에는 소스 웹 페이지에 대한 참조가 포함되어 있습니다. 리소스를 정리하려면 지식베이스, 벡터 데이터베이스, IAM 서비스 역할을 삭제해야 합니다. Amazon Bedrock는 웹 데이터를 효율적으로 통합하여 생성 AI 애플리케이션을 개선합니다.
aws.amazon.com
Implement web crawling in Knowledge Bases for Amazon Bedrock
Create attached notes ...
