Der Bigtable Spark Connector ermöglicht die direkte Interaktion mit Bigtable-Daten aus Apache Spark heraus, was leistungsstarke Anwendungsfälle ermöglicht, die Apache Iceberg nutzen. Der Connector ermöglicht das Lesen und Schreiben von Bigtable-Daten mit Apache Spark in Scala, SparkSQL und DataFrames. Diese Integration bietet direkten Zugriff auf operative Daten zum Aufbau von Datenpipelines, die das Trainieren von ML-Modellen, ETL/ELT oder die Generierung von Echtzeit-Dashboards unterstützen. Der Connector unterstützt auch Abfrageoptimierungen wie Join-Pushdowns und dynamische Spaltenfilterung. Dies eröffnet Bigtable- und Apache Iceberg-Integrationen für beschleunigte Data Science, Serving mit geringer Latenz und andere Anwendungsfälle. Data Scientists können direkt mit den operativen Daten von Bigtable in ihren Apache Spark-Umgebungen interagieren, wodurch die Datenaufbereitung, -exploration, -analyse und die Erstellung von Iceberg-Tabellen optimiert werden. Der Connector ermöglicht auch Serving mit geringer Latenz durch die Unterstützung von Write-Back-Funktionen, wodurch Echtzeit-Updates in Bigtable möglich sind. Um loszulegen, müssen Benutzer die Bigtable Spark Connector-Abhängigkeit zu ihrer Apache Spark-Instanz hinzufügen und eine Zuordnung zwischen dem Spark-Datenformat und den Bigtable-Datenformaten mithilfe von JSON erstellen. Der Connector kann für verschiedene Anwendungsfälle verwendet werden, z. B. zur Verfolgung von Fahrzeugtelemetriedaten, und kann mit Bigtable Data Boost kombiniert werden, um Read-Jobs mit hohem Durchsatz auf operativen Daten zu ermöglichen, ohne die Bigtable-Anwendungsperformance zu beeinträchtigen.
cloud.google.com
From data lakes to user applications: How Bigtable works with Apache Iceberg
