Чему вы научитесь
- 1. Собрать полный Data Quality pipeline на реальном e-commerce проекте
- 2. Встраивать DQ-проверки в Airflow и останавливать пайплайн при ошибках
- 3. Настраивать автоматические проверки с Great Expectations
- 4. Валидировать данные в Python с Pydantic и Pandera
- 5. Мониторить свежесть, объём и схему данных (Data Observability)
- 6. Писать SQL-проверки на NULL, дубликаты, диапазоны и связность
О курсе
Ваши данные лгут... и вы об этом не знаете 😅
NULL там, где должно быть число.
Дубликаты в заказах.
Связи между таблицами, которые тихо сломались.
Всё это попадает в дашборд, и бизнес принимает решения по мусору.
Большинство аналитиков и дата-инженеров обнаруживают проблему
с данными уже после того, как она навредила.
➡️ Этот курс учит находить её до ⬅️
🏗️ Что вы построите
На протяжении всего курса -> один сквозной проект: аналитический e-commerce пайплайн. К финалу у вас будет полноценная система контроля качества данных, которая автоматически проверяет данные на каждом этапе и останавливает
пайплайн при обнаружении проблем.
Итоговый шаблон можно забрать в свой рабочий проект.
🔧 Стэк курса
Мы идём от простого к системному: сначала SQL-проверки, затем Python-валидация, потом Great Expectations, мониторинг и встраивание всего этого в Airflow.
⚡ Для кого и уровень
Этот курс для тех, у кого пайплайн уже “работает”, но доверия к данным всё ещё нет.
Если вы хотите перейти от “данные загружаются” к “данным можно верить” вам сюда.
🎯 Цена запуска: 1490 ₽ → потом 2300 ₽
Для кого этот курс
Начальные требования
☑️ Базовый SQL (SELECT, JOIN, GROUP BY)
☑️ Базовый Python (функции, циклы, работа с pandas).
Всё остальное разбираем в курсе с нуля.
Наши преподаватели
Как проходит обучение
Каждый модуль добавляет новый слой защиты данных.
Сначала вы пишете SQL-проверки. Потом подключаете Python-валидацию. Затем собираете Great Expectations, мониторинг и выстраиваете пайплайн в Airflow.
Программа курса
Сертификат
Что вы получаете
- ✅ Готовый шаблон Data Quality pipeline -> забираете в свои рабочие проекты
- ✅ SQL-библиотека проверок: NULL, дубликаты, диапазоны, связность, схема
- ✅ Настроенный Great Expectations проект с validation suite и Data Docs
- ✅ Навык встраивания DQ-проверок в Airflow DAG с fail при ошибке данных
- ✅ Понимание Data Observability: freshness, volume и schema monitoring
- ✅ Сертификат Stepik -> подтверждение навыка для резюме и hh.ru
- ✅ Финальный проект в портфолио с эталонным решением