Amazon Bedrock, tam olarak yönetilen bir hizmettir ve önde gelen AI şirketlerinden yüksek performanslı temel modellerine (FM) tek bir API aracılığıyla erişim sağlar. Bu hizmet, güvenli, özel ve sorumlu AI uygulamaları oluşturma yeteneğini sunar. Kullanıcılar, FM'lerle kendi kurumsal verilerini kullanarak ve sistemlerini ve veri kaynaklarını kullanarak ajanlar oluşturabilir. Amazon Bedrock için Bilgi Tabanları, veri kaynaklarının kapsamlı bir deposuna agregasyonunu sağlar, bu da Alığı Güncellemeli Oluşturma (RAG) kullanan uygulamaları kolaylaştırır.
Müşteriler, genel olarak erişilebilen web sitelerinin tarama ve indeksleme yeteneğini, Bilgi Tabanına entegre etmek için web taramacılar kullanarak artırabilir. Web taramacı, sağlanan URL'lerden veri alır, aynı temel etki alanında çocuğu olan bağlantıları takip eder. PDF'ler ve CSV'ler gibi çeşitli dosya türlerini destekler, ancak robots.txt direktifelerine uyar ve tarama sınırlarını dikkate alır.
Farklı senkronizasyon kapsamları, web sayfalarının dahil edilmesini kontrol eder, örneğin Varsayılan, Yalnızca Host ve Alt etki alanları, her biri taramacı için özel yollar tanımlar. Regex kullanarak filtreler, kapsamın daha da daraltılmasını sağlar, URL'lerin dışlanmasını veya dahil edilmesini belirlenen kalıplara göre sağlar. Örneğin, .pdf ile biten URL'lerin dışlanması veya "ürünler" içeren URL'lerin dahil edilmesi.
Web taramacı ile bir Bilgi Tabanı oluşturmak için kullanıcılar, Amazon Bedrock konsolunda adımlara göre yapılandırabilir, kaynak URL'leri, senkronizasyon kapsamı ve dahil etme/ hariç tutma modellerini belirtir. Ayrıca, Amazon OpenSearch Serverless vektör arama koleksiyonları için Hızlı Oluşturma seçeneğini kullanarak katma modellerini ve vektör veritabanlarını seçebilirler.
Bilgi Tabanının test edilmesi, veri kaynağını senkronize etmek ve modeli özel sorularla sorgulamaktır. Yanıtlardaki alıntılar, kaynak web sayfalarına bağlanır, yanıt doğruluğunu sağlar. Bu süreç, AWS SDK for Python (Boto3) kullanarak programlı olarak da yapılabilir, katma modellerini ve web taramacı yapılandırmasını belirtir.
Web tarama durumunu izlemek, Amazon CloudWatch günlüklerinde yapılabilir, bu günlükler ziyaret edilen URL'leri raporlar. Kaynakları temizlemek için kullanıcılar, Bilgi Tabanını, vektör veritabanını ve IAM hizmet rolünü silmelidir. Amazon Bedrock, yenilikçi web verilerini verimli bir şekilde kullanarak oluşturma AI uygulamalarını iyileştirir.
aws.amazon.com
Implement web crawling in Knowledge Bases for Amazon Bedrock
Create attached notes ...
