Чему вы научитесь
- ✔ находить NULL-значения в ключевых полях
- ✔ выявлять дубликаты и понимать, как они искажают метрики
- ✔ проверять корректность значений (диапазоны, аномалии)
- ✔ находить проблемы в связях между таблицами
- ✔ контролировать структуру данных (schema checks)
- ✔ собирать базовый набор SQL-проверок для своих данных
- ✔ работать с данными локально в DuckDB без настройки
- ✔ мыслить как аналитик Data Quality, а не просто писать SQL
О курсе
Пайплайн работает. Airflow зелёный. Все таски прошли.
А данные в дашборде - неправильные 🥲.
Знакомо?
В данных могут быть:
- NULL там, где должен быть клиент
- дубликаты заказов
- сломанные связи между таблицами
И всё это незаметно ломает аналитику.
➡️ В этом курсе вы научитесь находить такие ошибки с помощью SQL: быстро и на практике ⬅️
🏗️ Что вы сможете делать после курса
На протяжении курса работаем с одним датасетом: данными интернет-магазина. Каждый батч моделирует конкретную поломку из реальной практики.
К концу курса у вас будет:
✔ набор SQL-проверок для реальных данных
✔ понимание, где чаще всего ломаются таблицы
✔ навык находить ошибки до того, как они попадут в отчёты
Вы начнёте использовать SQL не только для анализа, но и для проверки данных: как это делают сильные аналитики.
⚙️ Инструмент: DuckDB
Работаем в DuckDB: без настройки серверов и облака.
Просто:
установили → открыли файл → начали писать SQL.
Это максимально близко к реальной работе аналитика.
🚀 Это только первый шаг в Data Quality
В этом курсе вы освоите базу: SQL-проверки.
В полном курсе вы:
- автоматизируете проверки (Great Expectations)
- добавите Python-валидацию (Pydantic, Pandera)
- настроите мониторинг данных
- встроите проверки в Airflow
и соберёте полноценный Data Quality pipeline.
➡️ Перейти к полному курсу:
Для кого этот курс
Начальные требования
Достаточно базового SQL и компьютера, на который можно поставить DuckDB.
Python и Airflow не нужны: этот курс полностью про SQL
Наши преподаватели
Как проходит обучение
📖 Короткие текстовые уроки с объяснениями и примерами SQL-запросов. Без воды и лишней теории
🔨 Практические задания после каждой темы. Вы пишете запросы руками, а не просто читаете
📊 Работа с реальным датасетом интернет-магазина: каждый батч моделирует конкретную поломку из практики
🦆 DuckDB наш основной инструмент. Устанавливается один раз, работает локально,
читает Parquet напрямую
🎯 Финальная практика: самостоятельный поиск проблем в реальных данных
Программа курса
Что вы получаете
- ✔ готовый набор SQL-проверок
- ✔ понимание, как находить ошибки в данных
- ✔ базу для перехода к Data Quality pipeline
- ✔ практику на реальном датасете