ML Engineer / Data Scientist: табличные модели в продакшн

Практический курс для тех, кто хочет получить навыки ML Engineer / Data Scientist на реальных табличных задачах. В курсе Вы не просто обучите CatBoost/LightGBM, а соберёте полноценный production-style пайплайн: подготовка данных, feature engineering (генерация признаков), корректная валидация, защита от leakage…

Чему вы научитесь

  • Готовить табличные данные: пропуски, выбросы, скейлинг (когда нужен)
  • Кодировать категории: One-Hot, Label, Target Encoding (без утечек)
  • Строить baseline и выбирать метрику под задачу (AUC/F1/PR-AUC, MAE/RMSE)
  • Делать корректный split: holdout vs k-fold CV, group/time split (когда нужно)
  • Обучать CatBoost для классификации и регрессии (early stopping, cat_features)
  • Обучать LightGBM для классификации и регрессии (early stopping, categorical_feature)
  • Сравнивать CatBoost vs LightGBM по качеству, скорости и стабильности
  • Делать feature engineering: агрегации, счётчики, взаимодействия, биннинг, лог-преобразования
  • Отбирать признаки и проверять вклад фич без самообмана
  • Настраивать кросс-валидацию и получать устойчивую оценку качества
  • Подбирать гиперпараметры: Grid/Random и Optuna (pruning, best-trials)
  • Настраивать регуляризацию и бороться с переобучением
  • Интерпретировать модели: feature importance, permutation importance
  • Использовать SHAP для глобальных и локальных объяснений
  • Находить и чинить типовые проблемы: leakage, плохая валидация, target shift
  • Делать error analysis: когорты с худшим качеством, гипотезы улучшений
  • Собирать воспроизводимый training pipeline: preprocessing → train → eval → артефакты
  • Сохранять модель/метрики/конфиги и делать “чистые” эксперименты
  • Делать batch-инференс на новых данных (CSV/parquet, батчи)
  • Разворачивать простой REST API для предсказаний (FastAPI)

О курсе

Этот курс — про инженерную сборку сильных моделей на табличных данных под реальные задачи. Мы идём от подготовки данных и корректной валидации к CatBoost/LightGBM, feature engineering и тюнингу гиперпараметров (включая Optuna). Дальше — интерпретация модели (feature importance, SHAP) и диагностика типовых провалов качества: leakage, неправильный split, переобучение и ошибки preprocessing.

Ничего лишнего: каждое занятие заканчивается артефактом — ноутбук/скрипт, таблица экспериментов, отчёт метрик, сохранённая модель или inference pipeline. В финале Вы соберёте воспроизводимый пайплайн обучения и инференса (batch + простой REST API), который можно положить в GitHub-портфолио.

Для кого этот курс

Новички в ML/DS, кто уже знает Python и pandas и хочет впервые уверенно решать табличные задачи: от baseline до сильной модели. Начинающие ML-инженеры и аналитики, которым нужен практический стек “как в работе”: CatBoost/LightGBM, признаки, валидация, тюнинг. Data Scientist’ы, которые уже обучали модели, но хотят системно прокачать качество: правильный split, борьба с leakage, стабильные метрики. Python/Backend-разработчики, которым нужно внедрять модели на табличных данных и собрать inference pipeline. Все, кто решает табличные задачи (скоринг, churn, риск, маркетинг, прогнозы) и хочет получать качество выше baseline без магии.

Начальные требования

Python на базовом уровне и готовность писать код руками (pip/venv, Jupyter).

pandas/numpy на базовом уровне: фильтрации, группировки, merge/join.

Базовые понятия ML приветствуются (train/test split, метрики), но если их нет — в первых модулях быстро доберём нужный минимум.

Наши преподаватели

Как проходит обучение

Курс построен как серия мини-спринтов: короткая прикладная теория → практическое задание → проверка результата. В каждом модуле Вы собираете рабочий артефакт (ноутбук/скрипт/таблицу экспериментов/модель), а не просто почитали интересную статью.

Формат: текстовые шаги + код-примеры + задания в Jupyter/скриптах. Практика идёт на реальных табличных датасетах: Вы последовательно улучшаете baseline, делаете feature engineering, тюните параметры и сравниваете модели. Финальный результат — воспроизводимый pipeline обучения и inference (batch и REST API), который можно выложить на GitHub.

Программа курса

загружаем...

Что вы получаете

  • Понятную систему работы с табличными данными: подготовка данных → валидация → модель → улучшения.
  • Практику на реальных датасетах: Вы последовательно улучшаете baseline и видите, откуда берётся рост качества.
  • Навыки работы с CatBoost и LightGBM для классификации и регрессии: настройка, сравнение, выбор модели под задачу.
  • Набор рабочих приёмов feature engineering: кодировки категорий, агрегации, взаимодействия, отбор признаков.
  • Подбор гиперпараметров (Grid/Random/Optuna) и понимание, как тюнить без лишних итераций.
  • Интерпретацию моделей: feature importance и SHAP, чтобы объяснять решения модели.
  • Итоговый пример: обучение модели, сохранение, инференс на новых данных (batch) и простой API.

Сколько стоит обучение

Price: 12 990 
Вы попробовали и поняли, что вам сейчас не подходит этот курс? Ничего страшного, мы вернём вам деньги в течение 30-ти дней после покупки.

Часто задаваемые вопросы

Расскажите о курсе друзьям

Price: 12 990