DZone.comのRSS
フォロー
Apache Spark の結合の種類について理解する
この記事では、Apache Sparkの3つの基本的な結合について説明します。
データフレームまたはテーブルの結合操作は、Apache Sparkでのデータ変換に最も一般的に使用されます。Apache Sparkを使用すると、開発者は結合を使用して、特定の(ソート可能な)キーに従って2つ以上のデータフレームをマージできます。結合操作の記述は簡単な構文ですが、内部の仕組みが不明瞭な場合があります。Apache Sparkの内部APIは、結合のためのいくつかのアルゴリズムを提案し、そのうちの1つを選択します。これらのコアアルゴリズムが何であるか、またはSparkがどれを使用しているかを知らない場合、基本的な結合操作はコストがかかる可能性があります。