Чему вы научитесь

Проектировать конвейер данных Kafka → Spark → Lakehouse под управлением Airflow.
Поднимать локальное окружение через Docker Compose и воспроизводимо деплоить пайплайны.
Делать batch и streaming в Spark, настраивать окна и watermark.
Читать/писать данные в Parquet и табличные форматы Delta/Iceberg, избегать «small files».
Настраивать DAG: расписания, retries, SLA, catchup, datasets.
Подключать источники/приёмники через Kafka Connect/Schema Registry, понимать EOS/idempotency.
Писать базовые тесты качества данных (freshness/completeness) и алерты по свежести.
Выполнять backfill и разруливать инциденты (сломалась схема, отставание потребителей).

О курсе

Этот курс — быстрый и практичный вход в инженерию данных. Вместо длинной теории вы сразу собираете рабочий конвейер: источники шлют события в Kafka, Spark их очищает и агрегирует (batch и streaming), результаты складываются в Parquet/Delta/Iceberg, а Airflow следит за расписанием, зависимостями и SLA.
Мы разбираем, как выбирать ключи и партиции в Kafka, как настроить окна и watermark в стриминге, как не утонуть в shuffle и перекосе ключей в Spark, и как избежать «мелких файлов» в озере. В конце у вас будет шаблон проекта: Docker-компоуз, минимальный DAG, стрим из Kafka в таблицу, проверки свежести и сценарий backfill.

Формат: короткая теория → пошаговая инструкция → мини-практика. Всё можно повторить локально: репозиторий с compose-файлами и кодом прилагается.

Вы также можете задать любой вопрос по курсу в telegram @alexey_stepik

Для кого этот курс

Специалисты, стремящиеся перейти в Data Engineering через практику: backend-разработчики, аналитики, DevOps, BI. ML/DS-инженеры, которым важно надёжно поставлять и перерабатывать данные в проде. Тимлиды и архитекторы, проектирующие пайплайны данных, стриминг и Lakehouse. Мотивированные обучающиеся с опытом Python и интересом к построению дата-инфраструктуры.

Начальные требования

Базовые навыки Python 3, умение читать SQL.

Опыт работы с Git/Bash и базовое понимание Docker.

Знание сетей/БД на уровне «что такое порт, таблица, индекс» — приветствуется, но не обязательно.

Наши преподаватели

Как проходит обучение

Все шаги — в браузере

На каждой теме — мини-практика + проверка.

Запускаете код из уроков локально

Поддержка в комментариях курса.

Программа курса

Сертификат

Сертификат Stepik

Что вы получаете

Рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow, который разворачивается из Docker Compose
Репозиторий курса: docker-compose, примеры кода, готовые DAG, конфиги Kafka/Schema Registry/Kafka Connect
Мини-проект в портфолио: поток из Kafka в Delta/Iceberg + batch-пересчёт (backfill) + SLA/алерты
Чек-листы продакшена: ключи/партиции, окна и watermark, small files/компакции, мониторинг lag и задержек
Шаблоны: Airflow-DAG для ETL/ELT, Spark-jobs (batch/stream), базовые проверки качества данных (freshness/completeness)
Шпаргалки и схемы по Kafka, Airflow, Spark и табличным форматам (Delta/Iceberg)
Задачи и самопроверки двух уровней сложности (Starter/Pro)
Подготовительный мини-модуль для самоучек: краткий recap Python/SQL/Git/Bash/Docker (4–6 часов)
Пошаговые инструкции с разбором типичных ошибок и анти-паттернов
Оперативные ответы в комментариях к курсу
Сертификат по завершении

Сколько стоит обучение

Часто задаваемые вопросы

Как оплатить курс в рассрочку?

Как оплатить от компании?

Расскажите о курсе друзьям

Прямая ссылка на курс:
https://stepik.org/250050

Data Engineering Fast‑Track: Kafka → Airflow → Spark