Чему вы научитесь
- Поднимать локальный кластер: Spark Master + N Worker’s + Postgres + JupyterLab + Airflow в Docker
- Разворачивать docker-стенд по docker compose up, понимать, что за что отвечает
- Организовывать RAW-слой с разложением файлов по ingest_date=YYYY-MM-DD
- Грузить данные RAW → STG идемпотентно по паттерну «replace по ingest_date»
- Проектировать CORE-модель: факты, измерения, event-даты, инкременты
- Строить сквозной ETL от файлов до витрины: RAW → STG → CORE → MARTS
- Писать базовые Spark-трансформации и агрегаты для подготовки слоёв
- Собирать DAG’и в Airflow для пайплайна raw→stg→core→marts
- Настраивать расписания, зависимости и ретраи для задач
- Собирать простую витрину и дашборд в BI-инструменте
- Работать с Git и приватным GitHub-репозиторием как в реальной команде
- Упаковывать результат в портфолио и уверенно рассказывать про свой ETL-пайплайн на собеседовании
О курсе
Это закрытый живой DE-практикум.
Вы развернёте у себя на ноутбуке мини-кластер (Spark + Postgres + JupyterLab в Docker) и соберёте сквозной ETL-пайплайн на реальном датасете интернет-магазина.
❗Как попасть на практикум
Перед оплатой обязательно:
-
Заполнить анкету. - я смотрю на ваши навыки, запросы и тех. параметры ПК.
-
Написать мне в Telegram. - чтобы я оперативно увидел вашу анкету.
-
Дождаться от меня подтверждения.
-
После подтверждения вы получаете подробную инструкцию по старту - дата, что необходимо, детали, ответы на ваши вопросы.
✅ Что делаем шаг за шагом:
-
поднимаем docker-стенд: Spark Master + 2 Worker’а + Postgres + JupyterLab;
-
раскладываем сырые файлы по
data/raw/.../ingest_date=YYYY-MM-DD; -
настраиваем загрузку RAW → STG по идемпотентному паттерну «replace по ingest_date»;
-
проектируем CORE-слой: факты, измерения, event-даты и инкременты;
-
готовим витрины под продуктовые вопросы и подаём их в BI;
-
оформляем шаги в Airflow-DAG’и и настраиваем расписания.
🔥 Формат потока:
- Вы присылаете свой логин GitHub — я даю доступ, вы клонируете репо.
- Инфраструктура находится в приватном GitHub-репозитории.
- Все уроки, шаги, тесты и задания - на платформу Stepik.
- Прохождение курса поэтапное (завершили модуль - переходите к следующему).
Это формат для тех, кто хочет получить сильный кейс в портфолио.
Цель — чтобы к концу практикума у вас был живой мини-DWH и рабочий пайплайн.
📊 Скриншоты
- Сквозной DAG по загрузке в STG
-
Docker и стенд
-
Репозиторий в GitHub
-
Объектное хранилище
-
Построение DWH в Postgers
-
Spark + Jupyter
-
Тренировка написания DAG'ов в Airflow
🔍 Цена
-
Для потока 4 действует цена 35 000 ₽.
-
Старт потока -23 июня 2026.
📌 Технические требования
Для участия в практикуме вам потребуется:
-
ноутбук/ПК c 16 ГБ ОЗУ (минимум 12 ГБ, но комфортнее 16+);
-
Windows 10/11, Linux или macOS с включённой виртуализацией;
-
установленный Docker Desktop / Docker (я даю инструкции);
-
стабильный интернет;
-
аккаунт на GitHub (вы присылаете логин, я даю доступ к приватному репозиторию).
Для кого этот курс
Начальные требования
уверенная база по SQL: SELECT, JOIN, GROUP BY, базовые агрегаты
понимание, что такое факт/измерение и слой данных (raw / stg / core) на уровне идей
минимальный опыт работы с Python или готовность не бояться простых скриптов в Jupyter
готовность поставить Docker (инструкции дам) и немного покопаться в настройках ОС
желание разбираться в логике и архитектуре, а не просто «запустить ноутбук и забыть»
Наши преподаватели
Как проходит обучение
вы заполняете анкету и пишете мне в Telegram — проверяем уровень и железо
после одобрения и старта потока вы получаете доступ к приватному GitHub-репозиторию и инструкции по запуску стенда
поднимаете Docker-окружение у себя на машине и проверяете сервисы по чек-листу
проходите модули последовательно: читаете текстовый урок-README → выполняете шаги в SQL / PySpark / Docker → фиксируете результат в репозитории
задаёте вопросы в чате: Docker, Spark, Postgres, Airflow, SQL, архитектура — я помогаю с падениями контейнеров и ошибками в коде
двигаетесь в своём темпе, с ориентиром 4–5 часов в неделю; сопровождение — в течение первых месяцев, доступ к репозиторию остаётся.
Программа курса
Что вы получаете
- живой кейс для портфолио: мини-кластер + DWH + витрина + дашборд
- навык поднятия локального стенда (Spark, Postgres, Jupyter в Docker) без «магии админов»
- сквозной ETL-пайплайн RAW → STG → CORE → MARTS на реальном датасете
- опыт работы с Git и приватным репозиторием, близкий к продовой разработке
- понимание, как говорить на собесе про свой ETL, DAG’и, витрины и SLA пайплайнов
- поддержку автора на первых шагах: разбор логов, ошибок, архитектурных решений
- доступ к материалам и репозиторию, чтобы возвращаться к ним, когда будете строить свой следующий пайплайн уже на работе