Чему вы научитесь
- Освоите полный стек современного Data Engineering — от SQL до построения информационных систем.
- Научитесь работать с большими данными, используя технологии Kafka, Apache Airflow, ClickHouse, Spark и MinIO.
- Сможете строить end-to-end пайплайны для обработки данных в реальном времени и в батч-режиме.
- Разберётесь в архитектуре DWH и сможете проектировать хранилища данных.
- Освоите принципы построения ETL/ELT-процессов и научитесь автоматизировать их.
- Научитесь оптимизировать запросы SQL, строить аналитические витрины и работать с большими таблицами.
- Поймёте, как работает инфраструктура, и научитесь поднимать сервисы через Docker и Docker Compose.
- Овладеете навыками DevOps-культуры для Data Engineering: мониторинг, алертинг, CI/CD-подходы.
- Научитесь писать продакшн-код на Python, разделять задачи, строить модульную архитектуру.
- Поймёте, как устроены очереди, потоки данных, партиционирование, шардинг, репликация.
- Сможете проектировать и разрабатывать отказоустойчивые конвейеры обработки данных.
- Разберётесь в принципах безопасности данных и минимизации рисков в инфраструктуре.
- Получите навыки командной работы с Git, GitHub, code review и рабочими пайплайнами.
- Освоите инструменты визуализации и аналитики данных.
- Сможете интегрировать различные источники данных и превращать их в полезные аналитические потоки.
- Научитесь применять стандарты и форматы хранения данных (Parquet, Avro, JSON, ORC).
- Получите реальный опыт решения рабочих задач Data Engineer и построите свой полноценный проект-портфолио.
О курсе
Курс начинается 16 марта и заканчивается в конце 2026 года
Данный продукт является логическим продолжением курса «Data Engineer с нуля до junior».
Это доступный, относительно всего рынка, интенсив, и единственный на платформе Stepik курс-стажировка,
который позволит за несколько месяцев научиться решать реальные задачи Data Engineer.
Уровень грейда при полном прохождении стажировки будет соответствовать middle или junior+.
Формат проведения — дистанционный.
Количество студентов на потоке — 100.
После покупки курса вас добавят в закрытый Telegram-канал,
в котором будут описаны все дальнейшие шаги.
Стажировка длится до конца 2026 года!
Если вы знаете, что у вас слабый компьютер —
мы выдадим вам настроенную виртуальную машину за доп.плату.\
Старт 16 марта 2026
1. Первые действия — (вебинаров нет)
2. Организация работы — 1 вебинар
16.03 – 22.03.2026
3. Инженерный модуль — 2 вебинара
23.03 – 05.04.2026
4. Введение в проектную работу — 1 вебинар
06.04 – 12.04.2026
5. Работа с базами данных — 4 вебинара
13.04 – 10.05.2026
6. Свободное занятие — 1 вебинар
11.05 – 17.05.2026
Каникулы
18.05 – 24.05.2026
7. Основы DWH / DataLake — 1 вебинар
25.05 – 31.05.2026
8. Основы DBT — 1 вебинар
01.06 – 07.06.2026
9. Потоковая обработка данных + настройка алертов — 1 вебинар
08.06 – 14.06.2026
10. Батчевая обработка данных + настройка Grafana — 2 вебинара
15.06 – 28.06.2026
11. Основы ELK-стека — 1 вебинар
29.06 – 05.07.2026
12. Свободное занятие — 1 вебинар
06.07 – 12.07.2026
Каникулы
13.07 – 19.07.2026
13. Работа с инструментами Big Data — 4 вебинара
20.07 – 16.08.2026
14. Практическое изучение Airflow — 2 вебинара
17.08 – 30.08.2026
15. Знакомство с парсингом, очистка и загрузка данных — 1 вебинар
31.08 – 06.09.2026
16. Свободное занятие — 1 вебинар
07.09 – 13.09.2026
Каникулы
14.09 – 20.09.2026
17. Основы работы с Data Science — 2 вебинара
21.09 – 04.10.2026
18. Облачные технологии | Yandex Cloud — 1 вебинар
05.10 – 11.10.2026
19. Реализация итогового проекта и его защита — 3 вебинара
12.10 – 01.11.2026
20. Дальнейшее трудоустройство — 1 вебинар
02.11 – 08.11.2026
Для кого этот курс
Начальные требования
-
Необходимо уметь кодить основные конструкции Python (for, while, try/except, основные структуры данных)
-
Нужно знать любой диалект SQL на уровне написания простых запросов (фильтрация, join)
-
git — необходимо уметь создавать репозитории GIT и уметь пушить в удалённый репо (если что - научим)
-
Наличие компьютера с более 8 Гб оперативной памяти и жесткий диск от 128 Гб.