理解 Apache Spark 连接类型
在这篇文章中,我们将讨论 Apache Spark 的三个核心连接操作。
在 Apache Spark 中,数据框(DataFrame)或表连接(join)操作是最常用的数据转换方法。通过 Apache Spark,开发者可以使用连接操作根据特定的(可排序的)键合并两个或多个数据框。编写连接操作的语法很简单,但其内部工作原理有时会让人感到困惑。Apache Spark 的内部 API 提供了几种连接算法,并从中选择一种。如果你不了解这些核心算法是什么,或者 Spark 使用了哪种算法,一个基本的连接操作可能会变得非常昂贵。