Käytä web-kaiverrus- ja tietokantajärjestelmiä Amazon Bedrockissa

Seuraa

Käytä web-kaiverrus- ja tietokantajärjestelmiä Amazon Bedrockissa

Amazon Bedrock on täysin hallinnoitu palvelu, joka tarjoaa pääsyn useisiin eri suorituskykyisiin perusmalleihin (FMs) johtavilta AI-yrityksiltä yhden API:n kautta. Se tarjoaa mahdollisuuden rakentaa turvallisia, yksityisiä ja vastuullisia AI-sovelluksia. Käyttäjät voivat kokeilla ja mukauttaa FM:itä käyttämällä yritystietoja ja rakentaa agenteja tehtäviin, jotka hyödyntävät järjestelmiä ja tietolähteitä. Amazon Bedrockin Tietokannat sallivat tietolähteiden yhdistämisen kattavaan tietokantaan, mikä helpottaa sovelluksia, jotka käyttävät Hae ja Generoi (RAG) -tekniikkaa.Asiakkaat voivat laajentaa kyvykkyyden tietojen kaivamiseen ja indeksointiin verkkosivustoillaan integroimalla web-crawlerit tietokantaan, mikä parantaa AI-sovellusten tarkkuutta ja merkityksellisyyttä. Web-crawler hakee tiedot annetuista URL:istä, kiertäen lapsilinkit samalla päädomainilla. Se tukee eri tiedostotyyppejä, kuten PDF- ja CSV-tiedostoja, mutta noudattaa robots.txt-ohjeita ja asettaa kaivamisrajoituksia.Eri synkronointialueet, kuten Oletus, Vain isäntä ja Alidommit, määrittävät tiettyjä polkuja crawlerille. Suodattimet, jotka käyttävät regex:iä, voivat rajata alueen edelleen, poistamalla tai lisäämällä URL:itä määrättyjen kuvioitten perusteella. Esimerkiksi poistamalla URL:it, jotka päättyvät .pdf:hen tai lisäämällä URL:it, jotka sisältävät "products"-sanan.Tietokannan luominen web-crawlerin kanssa voidaan tehdä seuraamalla askel askeleelta Amazon Bedrockin konsolilla, määrittämällä asetukset, kuten lähteet URL:it, synkronointialue ja sisällyttämisoikeus/muutospatternit. Käyttäjät voivat valita upotusmallit ja vektoritietokannat, käyttämällä Quick create -vaihtoehtoa Amazon OpenSearch Serverless -vektorigeneraattorikokoelmissa.Tietokannan testaaminen käsittää tiedonlähteen synkronoinnin ja mallin kyselymisen tiettyjen kysymysten kanssa. Vastauksissa olevat viitteet linkittyvät alkuperäisiin verkkosivuihin, varmistaen vastausten oikeellisuuden. Asettelu voidaan tehdä myös ohjelmallisesti käyttämällä AWS SDK for Python (Boto3):a, määrittämällä upotusmallit ja web-crawler-asetukset.Web-kaivuustilanteen valvominen on mahdollista Amazon CloudWatch -lokeissa, jotka raportoivat käytettyjä URL:itä. Resurssien puhdistaminen vaatii tietokannan, vektoritietokannan ja IAM-palveluroolin poistamisen. Amazon Bedrock parantaa generatiivisia AI-sovelluksia tehokkaasti käyttämällä monipuolisia, ajan tasalla olevia web-tietoja.

Implement web crawling in Knowledge Bases for Amazon Bedrock aws.amazon.com

RSS Hunter • 31.7.2024