Понимание типов соединений Apa... Заметка
RSS DZone.com

Понимание типов соединений Apache Spark

В этой статье мы обсудим три основные операции соединения (join) в Apache Spark. Операция соединения (join) фреймов данных или таблиц является наиболее распространенной для преобразования данных в Apache Spark. С помощью Apache Spark разработчик может использовать соединения для слияния двух или более фреймов данных в соответствии с определенными (сортируемыми) ключами. Синтаксис для написания операции соединения прост, но иногда внутренние механизмы его работы скрыты. Внутренний API Apache Spark предлагает несколько алгоритмов для соединений и выбирает один из них. Простая операция соединения может стать дорогостоящей, если вы не знаете, что это за основные алгоритмы и какой из них использует Spark.