От озёр данных до пользовательских приложений: Как Bigtable работает с Apache Iceberg.

Spark коннектор для Bigtable обеспечивает прямое взаимодействие с данными Bigtable из Apache Spark, открывая возможности для мощных сценариев использования, использующих Apache Iceberg. Коннектор позволяет читать и записывать данные Bigtable с использованием Apache Spark на Scala, SparkSQL и DataFrames. Эта интеграция обеспечивает прямой доступ к оперативным данным для построения конвейеров данных, поддерживающих обучение ML-моделей, ETL/ELT или создание панелей мониторинга в реальном времени. Коннектор также поддерживает оптимизации запросов, такие как перенос операций соединения (join pushdowns) и динамическая фильтрация столбцов. Это открывает возможности интеграции Bigtable и Apache Iceberg для ускоренной науки о данных, обслуживания с низкой задержкой и других сценариев использования. Специалисты по обработке данных могут напрямую взаимодействовать с оперативными данными Bigtable в своих средах Apache Spark, оптимизируя подготовку данных, исследование, анализ и создание таблиц Iceberg. Коннектор также обеспечивает обслуживание с низкой задержкой, поддерживая возможности обратной записи, что позволяет вносить обновления в Bigtable в режиме реального времени. Чтобы начать работу, пользователям необходимо добавить зависимость коннектора Bigtable Spark в свой экземпляр Apache Spark и создать сопоставление между форматом данных Spark и форматами данных Bigtable с использованием JSON. Коннектор можно использовать для различных сценариев, таких как отслеживание телеметрии транспортных средств, и его можно комбинировать с Bigtable Data Boost, чтобы обеспечить высокопроизводительные задачи чтения оперативных данных, не влияя на производительность приложений Bigtable.

cloud.google.com

From data lakes to user applications: How Bigtable works with Apache Iceberg

Изображение к статье: От озёр данных до пользовательских приложений: Как Bigtable работает с Apache Iceberg.

RSS Hunter

2025-06-04