DE-практикум: Spark, Docker, Postgres локально у вас на ноутбуке

Живой практикум по Data Engineering: поднимаем локальный кластер (Spark + Postgres + Jupyter + Airflow), строим слои RAW/STG/CORE на реальном датасете и разбираем паттерны middle-уровня.
Формат потока: небольшая группа, плотная поддержка и доработка курса по вашей обратной связи.
Средний уровень
5

Чему вы научитесь

  • Поднимать локальный кластер: Spark Master + N Worker’s + Postgres + JupyterLab в Docker
  • Разворачивать docker-стенд по docker compose up, понимать, что за что отвечает
  • Организовывать RAW-слой с разложением файлов по ingest_date=YYYY-MM-DD
  • Грузить данные RAW → STG идемпотентно по паттерну «replace по ingest_date»
  • Проектировать CORE-модель: факты, измерения, event-даты, инкременты
  • Строить сквозной ETL от файлов до витрины: RAW → STG → CORE → MARTS
  • Писать базовые Spark-трансформации и агрегаты для подготовки слоёв
  • Собирать DAG’и в Airflow для пайплайна raw→stg→core→marts
  • Настраивать расписания, зависимости и ретраи для задач
  • Собирать простую витрину и дашборд в BI-инструменте
  • Работать с Git и приватным GitHub-репозиторием как в реальной команде
  • Упаковывать результат в портфолио и уверенно рассказывать про свой ETL-пайплайн на собеседовании

О курсе

Это закрытый живой DE-практикум.
Вы развернёте у себя на ноутбуке мини-кластер (Spark + Postgres + JupyterLab в Docker) и соберёте сквозной ETL-пайплайн на реальном датасете интернет-магазина.

❗Как попасть на практикум

Перед оплатой обязательно:

  1. Заполнить анкету. - я смотрю на ваши навыки, запросы и тех. параметры ПК.

  2. Написать мне в Telegram. - чтобы я оперативно увидел вашу анкету.

  3. Дождаться от меня подтверждения.

  4. После подтверждения вы получаете подробную инструкцию по старту - дата, что необходимо, детали, ответы на ваши вопросы.

✅ Что делаем шаг за шагом:

  • поднимаем docker-стенд: Spark Master + 2 Worker’а + Postgres + JupyterLab;

  • раскладываем сырые файлы по data/raw/.../ingest_date=YYYY-MM-DD;

  • настраиваем загрузку RAW → STG по идемпотентному паттерну «replace по ingest_date»;

  • проектируем CORE-слой: факты, измерения, event-даты и инкременты;

  • готовим витрины под продуктовые вопросы и подаём их в BI;

  • оформляем шаги в Airflow-DAG’и и настраиваем расписания.

Весь код и инфраструктура живут в приватном GitHub-репозитории.
Вы присылаете свой логин GitHub — я даю доступ, вы клонируете репо и работаете, как в реальной команде: ветки, коммиты, README, миграции.

🔥 Формат потока:

  • Практикум ещё в разработке: к старту потока (~24 февраля 2026) будет готово 6-7 модулей, остальные модули будут разрабатываться по мере прохождения группы.

  • Возможны шероховатости: баги в Docker-окружении, мелкие ошибки в заданиях, доработки пояснений.

  • Это осознанный формат: вы получаете много моего внимания, влияете на финальный вид практикума и заходите по цене ниже итоговой.

Взамен я ожидаю от вас честный фидбек: где ломается, что непонятно, какие темы хочется раскрыть глубже.
Это формат для тех, кто хочет получить сильный кейс в портфолио — пока цена ниже финальной.

🧩 Примерная дорожная карта модулей

  • Модуль 0 — Окружение: Docker-стенд, проверка сервисов.

  • Модуль 1 — RAW → STG: ingest_date, разложение файлов, идемпотентные загрузки.

  • Модуль 2 — CORE: факты, измерения, event-даты, инкременты.

  • Модуль 3 — Spark-основы: базовые трансформации, партиционирование, работа с DataFrame.

  • Модуль 4 — Витрины: денормализация, партиционирование под нагрузки, экспорт в BI.

  • Далее — качество данных, Airflow, наблюдаемость и оптимизация (в формате отдельных модулей).

Цель — чтобы к концу практикума у вас был живой мини-DWH и рабочий пайплайн, а не только конспекты.

📊 Скриншоты 

  • Сквозной DAG по загрузке в STG

  • Docker и стенд

  • Репозиторий в GitHub

  • Объектное хранилище

  • Построение DWH в Postgers

  • Spark + Jupyter

  • Тренировка написания DAG'ов в Airflow

🔍 Цена

  • Для потока 3 действует цена 35 000 ₽.

  • Старт потока 3 планируется на 13 апреля.

📌 Технические требования

Для участия в практикуме вам потребуется:

  • ноутбук/ПК c 16 ГБ ОЗУ (минимум 12 ГБ, но комфортнее 16+);

  • Windows 10/11, Linux или macOS с включённой виртуализацией;

  • установленный Docker Desktop / Docker (я даю инструкции);

  • стабильный интернет;

  • аккаунт на GitHub (вы присылаете логин, я даю доступ к приватному репозиторию).

Для кого этот курс

джуны / сильные джун+ / начинающие мидлы в data, которые устали от «игрушечных» задач и хотят реальную практику аналитики, которые хотят перейти в Data Engineering через Spark и ETL действующие DE, которым не хватает именно практики со Spark и локальным стендом

Начальные требования

уверенная база по SQL: SELECT, JOIN, GROUP BY, базовые агрегаты
понимание, что такое факт/измерение и слой данных (raw / stg / core) на уровне идей
минимальный опыт работы с Python или готовность не бояться простых скриптов в Jupyter
готовность поставить Docker (инструкции дам) и немного покопаться в настройках ОС
желание разбираться в логике и архитектуре, а не просто «запустить ноутбук и забыть»

Наши преподаватели

Как проходит обучение

вы заполняете анкету и пишете мне в Telegram — проверяем уровень и железо
после одобрения и старта потока вы получаете доступ к приватному GitHub-репозиторию и инструкции по запуску стенда
поднимаете Docker-окружение у себя на машине и проверяете сервисы по чек-листу
проходите модули последовательно: читаете текстовый урок-README → выполняете шаги в SQL / PySpark / Docker → фиксируете результат в репозитории
задаёте вопросы в чате: Docker, Spark, Postgres, Airflow, SQL, архитектура — я помогаю с падениями контейнеров и ошибками в коде
двигаетесь в своём темпе, с ориентиром 4–5 часов в неделю; сопровождение — в течение первых месяцев, доступ к репозиторию остаётся.

Программа курса

загружаем...

Что вы получаете

  • живой кейс для портфолио: мини-кластер + DWH + витрина + дашборд
  • навык поднятия локального стенда (Spark, Postgres, Jupyter в Docker) без «магии админов»
  • сквозной ETL-пайплайн RAW → STG → CORE → MARTS на реальном датасете
  • опыт работы с Git и приватным репозиторием, близкий к продовой разработке
  • понимание, как говорить на собесе про свой ETL, DAG’и, витрины и SLA пайплайнов
  • поддержку автора на первых шагах: разбор логов, ошибок, архитектурных решений
  • доступ к материалам и репозиторию, чтобы возвращаться к ним, когда будете строить свой следующий пайплайн уже на работе

Сколько стоит обучение

Price: 35 000 
Вы попробовали и поняли, что вам сейчас не подходит этот курс? Ничего страшного, мы вернём вам деньги в течение 30-ти дней после покупки.

Часто задаваемые вопросы

Расскажите о курсе друзьям

Price: 35 000