Чему вы научитесь
- Поднимать локальный кластер: Spark Master + N Worker’s + Postgres + JupyterLab в Docker
- Разворачивать docker-стенд по docker compose up, понимать, что за что отвечает
- Организовывать RAW-слой с разложением файлов по ingest_date=YYYY-MM-DD
- Грузить данные RAW → STG идемпотентно по паттерну «replace по ingest_date»
- Проектировать CORE-модель: факты, измерения, event-даты, инкременты
- Строить сквозной ETL от файлов до витрины: RAW → STG → CORE → MARTS
- Писать базовые Spark-трансформации и агрегаты для подготовки слоёв
- Собирать DAG’и в Airflow для пайплайна raw→stg→core→marts
- Настраивать расписания, зависимости и ретраи для задач
- Собирать простую витрину и дашборд в BI-инструменте
- Работать с Git и приватным GitHub-репозиторием как в реальной команде
- Упаковывать результат в портфолио и уверенно рассказывать про свой ETL-пайплайн на собеседовании
О курсе
Это закрытый живой DE-практикум.
Вы развернёте у себя на ноутбуке мини-кластер (Spark + Postgres + JupyterLab в Docker) и соберёте сквозной ETL-пайплайн на реальном датасете интернет-магазина.
❗Как попасть на практикум
Перед оплатой обязательно:
-
Заполнить анкету. - я смотрю на ваши навыки, запросы и тех. параметры ПК.
-
Написать мне в Telegram. - чтобы я оперативно увидел вашу анкету.
-
Дождаться от меня подтверждения.
-
После подтверждения вы получаете подробную инструкцию по старту - дата, что необходимо, детали, ответы на ваши вопросы.
✅ Что делаем шаг за шагом:
-
поднимаем docker-стенд: Spark Master + 2 Worker’а + Postgres + JupyterLab;
-
раскладываем сырые файлы по
data/raw/.../ingest_date=YYYY-MM-DD; -
настраиваем загрузку RAW → STG по идемпотентному паттерну «replace по ingest_date»;
-
проектируем CORE-слой: факты, измерения, event-даты и инкременты;
-
готовим витрины под продуктовые вопросы и подаём их в BI;
-
оформляем шаги в Airflow-DAG’и и настраиваем расписания.
Весь код и инфраструктура живут в приватном GitHub-репозитории.
Вы присылаете свой логин GitHub — я даю доступ, вы клонируете репо и работаете, как в реальной команде: ветки, коммиты, README, миграции.
🔥 Формат потока:
-
Практикум ещё в разработке: к старту потока (~24 февраля 2026) будет готово 6-7 модулей, остальные модули будут разрабатываться по мере прохождения группы.
-
Возможны шероховатости: баги в Docker-окружении, мелкие ошибки в заданиях, доработки пояснений.
-
Это осознанный формат: вы получаете много моего внимания, влияете на финальный вид практикума и заходите по цене ниже итоговой.
Взамен я ожидаю от вас честный фидбек: где ломается, что непонятно, какие темы хочется раскрыть глубже.
Это формат для тех, кто хочет получить сильный кейс в портфолио — пока цена ниже финальной.
🧩 Примерная дорожная карта модулей
-
Модуль 0 — Окружение: Docker-стенд, проверка сервисов.
-
Модуль 1 — RAW → STG: ingest_date, разложение файлов, идемпотентные загрузки.
-
Модуль 2 — CORE: факты, измерения, event-даты, инкременты.
-
Модуль 3 — Spark-основы: базовые трансформации, партиционирование, работа с DataFrame.
-
Модуль 4 — Витрины: денормализация, партиционирование под нагрузки, экспорт в BI.
-
Далее — качество данных, Airflow, наблюдаемость и оптимизация (в формате отдельных модулей).
Цель — чтобы к концу практикума у вас был живой мини-DWH и рабочий пайплайн, а не только конспекты.
📊 Скриншоты
- Сквозной DAG по загрузке в STG
-
Docker и стенд
-
Репозиторий в GitHub
-
Объектное хранилище
-
Построение DWH в Postgers
-
Spark + Jupyter
-
Тренировка написания DAG'ов в Airflow
🔍 Цена
-
Для потока 3 действует цена 35 000 ₽.
-
Старт потока 3 планируется на 13 апреля.
📌 Технические требования
Для участия в практикуме вам потребуется:
-
ноутбук/ПК c 16 ГБ ОЗУ (минимум 12 ГБ, но комфортнее 16+);
-
Windows 10/11, Linux или macOS с включённой виртуализацией;
-
установленный Docker Desktop / Docker (я даю инструкции);
-
стабильный интернет;
-
аккаунт на GitHub (вы присылаете логин, я даю доступ к приватному репозиторию).
Для кого этот курс
Начальные требования
уверенная база по SQL: SELECT, JOIN, GROUP BY, базовые агрегаты
понимание, что такое факт/измерение и слой данных (raw / stg / core) на уровне идей
минимальный опыт работы с Python или готовность не бояться простых скриптов в Jupyter
готовность поставить Docker (инструкции дам) и немного покопаться в настройках ОС
желание разбираться в логике и архитектуре, а не просто «запустить ноутбук и забыть»
Наши преподаватели
Как проходит обучение
вы заполняете анкету и пишете мне в Telegram — проверяем уровень и железо
после одобрения и старта потока вы получаете доступ к приватному GitHub-репозиторию и инструкции по запуску стенда
поднимаете Docker-окружение у себя на машине и проверяете сервисы по чек-листу
проходите модули последовательно: читаете текстовый урок-README → выполняете шаги в SQL / PySpark / Docker → фиксируете результат в репозитории
задаёте вопросы в чате: Docker, Spark, Postgres, Airflow, SQL, архитектура — я помогаю с падениями контейнеров и ошибками в коде
двигаетесь в своём темпе, с ориентиром 4–5 часов в неделю; сопровождение — в течение первых месяцев, доступ к репозиторию остаётся.
Программа курса
Что вы получаете
- живой кейс для портфолио: мини-кластер + DWH + витрина + дашборд
- навык поднятия локального стенда (Spark, Postgres, Jupyter в Docker) без «магии админов»
- сквозной ETL-пайплайн RAW → STG → CORE → MARTS на реальном датасете
- опыт работы с Git и приватным репозиторием, близкий к продовой разработке
- понимание, как говорить на собесе про свой ETL, DAG’и, витрины и SLA пайплайнов
- поддержку автора на первых шагах: разбор логов, ошибок, архитектурных решений
- доступ к материалам и репозиторию, чтобы возвращаться к ним, когда будете строить свой следующий пайплайн уже на работе