О курсе
Курс покрывает Apache Spark 4.x (PySpark) как основной инструмент Data Engineer:
архитектуру, DataFrame API и Spark SQL, оптимизацию и тюнинг (AQE, Catalyst,
партиционирование, борьбу с data skew), Structured Streaming, Delta Lake,
базовый MLlib и промышленное развёртывание (spark-submit, Databricks,
Airflow). Формат — подробная теория (1500-2000 слов на текстовый урок),
код на Python с построчными комментариями, квизы и практические задания.
В финале — сквозной ETL-пайплайн Kafka → Structured Streaming → Delta Lake.
Наши преподаватели
Программа курса
Price:
Бесплатно