RSS HackerNoon

Все о Parquet. Часть 02 - Колонно-ориентированная модель хранения Parquet

Стоячий хранитель данных - это модель хранения данных, используемая в Apache Parquet, где данные для каждого столбца хранятся отдельно, что обеспечивает значительные преимущества для анализа больших данных. Эта модель эффективна для рабочих нагрузок, связанных с аналитическими запросами, большими наборами данных и хранилищем данных. Стоячий хранитель улучшает производительность запросов, позволяя системе сканировать только соответствующие столбцы, уменьшает затраты на хранение за счет лучшей компрессии и облегчает эффективное агрегирование и пакетную обработку. Parquet организует данные в группы строк и страницы, которые оптимизированы для компрессии и производительности чтения. Хотя стоячий хранитель идеально подходит для системы с преобладанием чтения, требующей частых запросов, он может не быть подходящим для транзакционных систем, требующих частых обновлений. Модель столбцов Parquet делает его мощным инструментом для анализа больших данных, особенно в средах, где запросы целевой на конкретные столбцы. В следующем блоге будет рассмотрена файловая структура Parquet, включая страницы, группы строк и столбцы.
favicon
hackernoon.com
All About Parquet Part 02 - Parquet's Columnar Storage Model
Create attached notes ...