DZone.com의 RSS
팔로우
Apache Spark 조인 유형 이해하기
이 글에서는 Apache Spark의 필수적인 조인 세 가지에 대해 논의할 것입니다.
데이터 프레임 또는 테이블 조인 연산은 Apache Spark에서 데이터 변환에 가장 흔하게 사용됩니다. Apache Spark를 사용하면 개발자는 조인을 사용하여 특정 (정렬 가능한) 키에 따라 두 개 이상의 데이터 프레임을 병합할 수 있습니다. 조인 연산을 작성하는 것은 간단한 구문을 가지고 있지만, 때로는 내부 작동 방식이 모호해질 수 있습니다. Apache Spark 내부 API는 조인을 위한 여러 알고리즘을 제안하고 하나를 선택합니다. 이러한 핵심 알고리즘이 무엇인지 또는 Spark가 어떤 알고리즘을 사용하는지 모른다면 기본적인 조인 연산이 비용이 많이 들 수 있습니다.