RSS クラウド ブログ

データレイクからユーザーアプリケーションまで:BigtableがApache Icebergと連携する方法

Bigtable Spark コネクタを使用すると、Apache Spark から Bigtable データと直接やり取りできるようになり、Apache Iceberg を活用した強力なユースケースが実現します。このコネクタを使用すると、Scala、SparkSQL、および DataFrames で Apache Spark を使用して Bigtable データの読み書きが可能です。この統合により、ML モデルのトレーニング、ETL/ELT、またはリアルタイムダッシュボードの生成をサポートするデータパイプラインを構築するための運用データへの直接アクセスが可能になります。また、コネクタは、結合プッシュダウンや動的列フィルタリングなどのクエリ最適化もサポートしています。これにより、Bigtable と Apache Iceberg の統合が、データサイエンスの加速、低レイテンシの提供、その他のユースケースに広がります。データサイエンティストは、Apache Spark 環境内で Bigtable の運用データと直接やり取りし、データ準備、探索、分析、および Iceberg テーブルの作成を効率化できます。コネクタは、書き戻し機能をサポートすることで低レイテンシの提供も可能にし、Bigtable へのリアルタイム更新を可能にします。開始するには、Bigtable Spark コネクタの依存関係を Apache Spark インスタンスに追加し、JSON を使用して Spark データ形式と Bigtable データ形式間のマッピングを作成する必要があります。このコネクタは、車両テレメトリの追跡など、さまざまなユースケースで使用でき、Bigtable Data Boost と組み合わせることで、Bigtable アプリケーションのパフォーマンスに影響を与えることなく、運用データに対する高スループットの読み取りジョブを可能にできます。
favicon
cloud.google.com
From data lakes to user applications: How Bigtable works with Apache Iceberg
記事の画像: データレイクからユーザーアプリケーションまで:BigtableがApache Icebergと連携する方法