Intégration de Microsoft GraphRAG dans Neo4j

Suivre

Intégration de Microsoft GraphRAG dans Neo4j

L'implémentation de GraphRAG par Microsoft a été utilisée avec succès pour construire des graphes de connaissances à partir de documents source traités par un grand modèle de langage (LLM). Le résultat est des informations structurées sur les entités et leurs relations, qui sont ensuite traitées en utilisant des algorithmes de graphes comme l'algorithme de détection de communauté de Leiden pour générer des résumés. Cet article discute de la façon de stocker la sortie de GraphRAG dans Neo4j et d'implémenter des récupérateurs locaux et globaux en utilisant LangChain ou LlamaIndex.La base de données utilisée est "Un chant de Noël" de Charles Dickens. Bien que le processus d'extraction de graphes puisse être omis, certaines configurations importantes incluent la sélection des types d'entités (organisations, personnes, événements, géo) et la fixation du maximum de récoltes à effectuer plusieurs passes d'extraction pour une capture d'informations exhaustive. La sortie du pipeline d'extraction de graphes est stockée sous forme de fichiers parquet, qui sont ensuite importés dans Neo4j. Le processus d'importation peut être effectué en utilisant une instance cloud gratuite Aura ou un environnement Neo4j local, avec le code d'importation fourni en tant de notebook Jupyter sur GitHub.Après avoir importé les données dans Neo4j, une analyse de graphes simple est effectuée en utilisant des requêtes Cypher pour comprendre la structure et le contenu des données extraites. Par exemple, la distribution des entités extraites et les degrés de nœud peuvent être analysés pour obtenir des informations sur les données. Les entités extraites et leurs relations sont visualisées et validées en utilisant le navigateur Neo4j.Pour implémenter les récupérateurs, le récupérateur local utilise la recherche vectorielle pour identifier les nœuds pertinents, puis parcourt les informations liées pour les injecter dans la prompt LLM. L'index vectoriel est configuré, et la requête de récupération est définie pour collecter des données de texte pertinentes telles que des morceaux de texte, des rapports de communauté et des descriptions de relations. Cela est mis en œuvre en utilisant à la fois LangChain et LlamaIndex, avec la requête de récupération adaptée pour chaque framework.Le récupérateur global, d'autre part, itère sur les résumés de communauté à un niveau hiérarchique spécifique, générant des résumés intermédiaires et une réponse finale. Cette approche simplifie le processus de récupération, mais nécessite de sélectionner le bon niveau hiérarchique pour obtenir les meilleurs résultats.En résumé, l'intégration de GraphRAG avec Neo4j et les frameworks de récupérateurs comme LangChain et LlamaIndex permet de récupérer des informations de manière sophistiquée à partir de graphes de connaissances structurés, en exploitant à la fois les stratégies de récupération locales et globales. Cette mise en œuvre montre les applications pratiques de GraphRAG dans l'analyse et la requête d'informations structurées extraites de sources textuelles.

Integrating Microsoft GraphRAG into Neo4j towardsdatascience.com

RSS Hunter • 1 août 2024