Databricks는 Apache Spark를 기반으로 구축된 통합 분석 플랫폼으로, 데이터 엔지니어링 및 머신 러닝과 같은 다양한 기능을 포함합니다. 데이터 레이크와 데이터 웨어하우스 기능을 결합한 Lakehouse 아키텍처는 핵심 개념입니다. Delta Lake를 사용하여 구현된 이 아키텍처는 ACID 트랜잭션을 제공하고 다양한 데이터 유형을 지원합니다. Databricks의 아키텍처는 제어 평면과 데이터 평면으로 구성되어 고객의 클라우드 계정 내에서 데이터 보안을 보장합니다. Databricks Workspace는 노트북, Repos를 통한 Git 통합, 클러스터 관리를 통해 협업 개발을 가능하게 합니다. Databricks의 핵심 엔진인 Apache Spark는 분산 컴퓨팅을 위해 드라이버 및 익스큐터 노드를 활용하며, 스테이지와 태스크를 통해 작업을 실행합니다. SparkSession은 Spark 작업의 주요 진입점 역할을 하며, 핵심 데이터 구조인 DataFrame을 관리합니다. DataFrame은 필터링, 열 추가, 집계 등 다양한 변환을 지원합니다. Spark SQL은 DataFrame에 대한 SQL 쿼리를 허용하며, Spark 데이터 유형을 이해하는 것이 중요합니다. 배열, 구조체, 맵과 같은 복잡한 데이터 유형은 다양한 Spark 함수로 처리됩니다.
dev.to
The Ultimate Guide to Databricks Data Engineer Associate Exam: Everything You Need to Know
Create attached notes ...
