Чему вы научитесь
- Готовить табличные данные: пропуски, выбросы, скейлинг (когда нужен)
- Кодировать категории: One-Hot, Label, Target Encoding (без утечек)
- Строить baseline и выбирать метрику под задачу (AUC/F1/PR-AUC, MAE/RMSE)
- Делать корректный split: holdout vs k-fold CV, group/time split (когда нужно)
- Обучать CatBoost для классификации и регрессии (early stopping, cat_features)
- Обучать LightGBM для классификации и регрессии (early stopping, categorical_feature)
- Сравнивать CatBoost vs LightGBM по качеству, скорости и стабильности
- Делать feature engineering: агрегации, счётчики, взаимодействия, биннинг, лог-преобразования
- Отбирать признаки и проверять вклад фич без самообмана
- Настраивать кросс-валидацию и получать устойчивую оценку качества
- Подбирать гиперпараметры: Grid/Random и Optuna (pruning, best-trials)
- Настраивать регуляризацию и бороться с переобучением
- Интерпретировать модели: feature importance, permutation importance
- Использовать SHAP для глобальных и локальных объяснений
- Находить и чинить типовые проблемы: leakage, плохая валидация, target shift
- Делать error analysis: когорты с худшим качеством, гипотезы улучшений
- Собирать воспроизводимый training pipeline: preprocessing → train → eval → артефакты
- Сохранять модель/метрики/конфиги и делать “чистые” эксперименты
- Делать batch-инференс на новых данных (CSV/parquet, батчи)
- Разворачивать простой REST API для предсказаний (FastAPI)
О курсе
Этот курс — про инженерную сборку сильных моделей на табличных данных под реальные задачи. Мы идём от подготовки данных и корректной валидации к CatBoost/LightGBM, feature engineering и тюнингу гиперпараметров (включая Optuna). Дальше — интерпретация модели (feature importance, SHAP) и диагностика типовых провалов качества: leakage, неправильный split, переобучение и ошибки preprocessing.
Ничего лишнего: каждое занятие заканчивается артефактом — ноутбук/скрипт, таблица экспериментов, отчёт метрик, сохранённая модель или inference pipeline. В финале Вы соберёте воспроизводимый пайплайн обучения и инференса (batch + простой REST API), который можно положить в GitHub-портфолио.
Для кого этот курс
Начальные требования
Python на базовом уровне и готовность писать код руками (pip/venv, Jupyter).
pandas/numpy на базовом уровне: фильтрации, группировки, merge/join.
Базовые понятия ML приветствуются (train/test split, метрики), но если их нет — в первых модулях быстро доберём нужный минимум.
Наши преподаватели
Как проходит обучение
Курс построен как серия мини-спринтов: короткая прикладная теория → практическое задание → проверка результата. В каждом модуле Вы собираете рабочий артефакт (ноутбук/скрипт/таблицу экспериментов/модель), а не просто почитали интересную статью.
Формат: текстовые шаги + код-примеры + задания в Jupyter/скриптах. Практика идёт на реальных табличных датасетах: Вы последовательно улучшаете baseline, делаете feature engineering, тюните параметры и сравниваете модели. Финальный результат — воспроизводимый pipeline обучения и inference (batch и REST API), который можно выложить на GitHub.
Программа курса
Что вы получаете
- Понятную систему работы с табличными данными: подготовка данных → валидация → модель → улучшения.
- Практику на реальных датасетах: Вы последовательно улучшаете baseline и видите, откуда берётся рост качества.
- Навыки работы с CatBoost и LightGBM для классификации и регрессии: настройка, сравнение, выбор модели под задачу.
- Набор рабочих приёмов feature engineering: кодировки категорий, агрегации, взаимодействия, отбор признаков.
- Подбор гиперпараметров (Grid/Random/Optuna) и понимание, как тюнить без лишних итераций.
- Интерпретацию моделей: feature importance и SHAP, чтобы объяснять решения модели.
- Итоговый пример: обучение модели, сохранение, инференс на новых данных (batch) и простой API.