Data Quality: находим ошибки в данных с помощью SQL

За 1–2 часа научитесь находить ошибки в данных с помощью SQL: NULL, дубликаты, неверные значения и сломанные связи.
Практика на реальном датасете. Без настройки: всё в DuckDB
Начальный уровень
1-2 часа в неделю

Чему вы научитесь

  • ✔ находить NULL-значения в ключевых полях
  • ✔ выявлять дубликаты и понимать, как они искажают метрики
  • ✔ проверять корректность значений (диапазоны, аномалии)
  • ✔ находить проблемы в связях между таблицами
  • ✔ контролировать структуру данных (schema checks)
  • ✔ собирать базовый набор SQL-проверок для своих данных
  • ✔ работать с данными локально в DuckDB без настройки
  • ✔ мыслить как аналитик Data Quality, а не просто писать SQL

О курсе

Пайплайн работает. Airflow зелёный. Все таски прошли.
А данные в дашборде - неправильные 🥲.

Знакомо?

В данных могут быть:

  • NULL там, где должен быть клиент
  • дубликаты заказов
  • сломанные связи между таблицами

 

И всё это незаметно ломает аналитику.

 

➡️  В этом курсе вы научитесь находить такие ошибки с помощью SQL: быстро и на практике ⬅️

 

🏗️ Что вы сможете делать после курса

На протяжении курса работаем с одним датасетом: данными интернет-магазина. Каждый батч моделирует конкретную поломку из реальной практики.

 

К концу курса у вас будет:

✔ набор SQL-проверок для реальных данных

✔ понимание, где чаще всего ломаются таблицы

✔ навык находить ошибки до того, как они попадут в отчёты

Вы начнёте использовать SQL не только для анализа, но и для проверки данных: как это делают сильные аналитики.

 

⚙️ Инструмент: DuckDB

Работаем в DuckDB: без настройки серверов и облака.

Просто:

установили → открыли файл → начали писать SQL.

Это максимально близко к реальной работе аналитика.

 

🚀 Это только первый шаг в Data Quality

В этом курсе вы освоите базу: SQL-проверки.

В полном курсе вы:

  1. автоматизируете проверки (Great Expectations)
  2. добавите Python-валидацию (Pydantic, Pandera)
  3. настроите мониторинг данных
  4. встроите проверки в Airflow

и соберёте полноценный Data Quality pipeline.

 

➡️ Перейти к полному курсу:

Data Quality в пайплайнах: SQL, Python, Great Expectations

Для кого этот курс

аналитикам, которые уже пишут SQL тем, кто хочет перестать “верить данным на глаз” тем, кто хочет добавить Data Quality в свою работу Если вы работаете с таблицами, этот навык вам нужен

Начальные требования

Достаточно базового SQL и компьютера, на который можно поставить DuckDB.

Python и Airflow не нужны: этот курс полностью про SQL

Наши преподаватели

Как проходит обучение

📖 Короткие текстовые уроки с объяснениями и примерами SQL-запросов. Без воды и лишней теории

🔨 Практические задания после каждой темы. Вы пишете запросы руками, а не просто читаете

📊 Работа с реальным датасетом интернет-магазина: каждый батч моделирует конкретную поломку из практики

🦆 DuckDB наш основной инструмент. Устанавливается один раз, работает локально, 
   читает Parquet напрямую

🎯 Финальная практика: самостоятельный поиск проблем в реальных данных

Программа курса

загружаем...

Что вы получаете

  • ✔ готовый набор SQL-проверок
  • ✔ понимание, как находить ошибки в данных
  • ✔ базу для перехода к Data Quality pipeline
  • ✔ практику на реальном датасете
Price: Бесплатно

Расскажите о курсе друзьям

Price: Бесплатно