Le connecteur Bigtable Spark permet une interaction directe avec les données Bigtable depuis Apache Spark, ouvrant la voie à de puissants cas d'utilisation qui tirent parti d'Apache Iceberg. Le connecteur permet de lire et d'écrire des données Bigtable à l'aide d'Apache Spark en Scala, SparkSQL et DataFrames. Cette intégration fournit un accès direct aux données opérationnelles pour la construction de pipelines de données qui prennent en charge l'entraînement de modèles ML, l'ETL/ELT ou la génération de tableaux de bord en temps réel. Le connecteur prend également en charge les optimisations de requêtes telles que le "join pushdown" et le filtrage dynamique des colonnes. Cela ouvre des intégrations Bigtable et Apache Iceberg pour la science des données accélérée, le service à faible latence et d'autres cas d'utilisation. Les data scientists peuvent interagir directement avec les données opérationnelles de Bigtable dans leurs environnements Apache Spark, rationalisant ainsi la préparation des données, l'exploration, l'analyse et la création de tables Iceberg. Le connecteur permet également un service à faible latence en prenant en charge les capacités de réécriture ("write-back"), rendant possibles les mises à jour en temps réel de Bigtable. Pour commencer, les utilisateurs doivent ajouter la dépendance du connecteur Bigtable Spark à leur instance Apache Spark et créer un mappage entre le format de données Spark et les formats de données Bigtable à l'aide de JSON. Le connecteur peut être utilisé pour divers cas d'utilisation, tels que le suivi de la télémétrie des véhicules, et peut être combiné avec Bigtable Data Boost pour permettre des tâches de lecture à haut débit sur les données opérationnelles sans impacter les performances de l'application Bigtable.
cloud.google.com
From data lakes to user applications: How Bigtable works with Apache Iceberg
Create attached notes ...
