RSS DZone.com
Seguir
Entendiendo los Tipos de Join de Apache Spark
En este artículo, vamos a discutir las tres uniones esenciales de Apache Spark.
La operación de unión de dataframes o tablas es la más comúnmente utilizada para las transformaciones de datos en Apache Spark. Con Apache Spark, un desarrollador puede usar las uniones para fusionar dos o más dataframes de acuerdo con claves específicas (ordenables). Escribir una operación de unión tiene una sintaxis sencilla, pero ocasionalmente los entresijos están oscurecidos. La API interna de Apache Spark sugiere varios algoritmos para las uniones y selecciona uno. Una operación de unión básica podría resultar costosa si no se conocen estos algoritmos principales o cuál utiliza Spark.