SRE-инженер: От основ до продакшена

Практический курс по Site Reliability Engineering. Пройдёте полный путь от настройки первых метрик до построения отказоустойчивых систем в продакшене. Освоите SLI/SLO/SLA, incident management, observability-стек (Prometheus, Grafana, ELK), научитесь проводить post-mortem и строить культуру надёжности в команде.
Средний уровень
Сертификат Stepik

Чему вы научитесь

  • Понимать философию SRE и её отличия от классического DevOps: error budgets, toil reduction, blameless culture.
  • Определять и внедрять SLI, SLO и SLA для сервисов, измерять надёжность количественно.
  • Строить observability-системы: метрики, логи, трейсы. Работать с Prometheus, Grafana, Alertmanager, Jaeger.
  • Настраивать эффективный алертинг: избегать alert fatigue, строить runbooks и on-call ротации.
  • Проводить incident management: классификация инцидентов, эскалация, координация во время аварий.
  • Писать post-mortem без поиска виноватых: анализ root cause, action items, предотвращение повторений.
  • Автоматизировать рутину (toil): скрипты самовосстановления, auto-scaling, self-healing инфраструктура.
  • Проектировать отказоустойчивые архитектуры: redundancy, graceful degradation, circuit breakers, retry policies.
  • Проводить capacity planning и load testing: прогнозирование нагрузки, стресс-тесты, бенчмарки.
  • Работать с Kubernetes с точки зрения надёжности: health checks, resource limits, PDB, HPA.
  • Внедрять chaos engineering: Chaos Monkey, Litmus, контролируемые эксперименты над продакшеном.
  • Строить CI/CD с учётом надёжности: canary deployments, blue-green, feature flags, rollback-стратегии.
  • Управлять техническим долгом и балансировать скорость разработки с надёжностью системы.
  • Готовиться к собеседованиям на позиции SRE: системный дизайн, troubleshooting, поведенческие вопросы.

О курсе

Этот курс — про инженерию надёжности для реальных высоконагруженных систем. Вы пройдёте путь от базового мониторинга до полноценной SRE-практики с error budgets, incident response и chaos engineering.

Внутри — не только «как настроить Prometheus», но и то, что важно в эксплуатации: как договориться о целевой надёжности с бизнесом, как не выгореть на on-call, как строить культуру, где аварии — это возможность улучшить систему, а не повод искать виноватых.

Ничего лишнего: каждое занятие завершается практическим артефактом — настроенным алертингом, написанным runbook, проведённым chaos-экспериментом или готовым post-mortem. Все проекты воспроизводятся по инструкциям.

Итог курса

На выходе вы построите полноценную SRE-практику для микросервисного приложения: observability-стек, SLO-дашборды, алертинг с runbooks, incident management процесс, chaos-тесты и документацию. Получившийся проект можно добавить в портфолио и использовать как основу для внедрения SRE в своей компании.

А больше информации о DevOps/Linux/SRE вы можете узнать в нашем тгк Linux Trends | DevOps & SRE

 

Вы также можете задать любой вопрос по курсу у автора t.me/stepikm

Для кого этот курс

Для DevOps-инженеров, которые хотят перейти в SRE и глубже погрузиться в надёжность систем. Подойдёт системным администраторам, бэкенд-разработчикам и тимлидам, которые отвечают за стабильность продакшена и хотят выстроить процессы управления надёжностью системно. Курс предполагает базовое понимание Linux — остальное разбирается по ходу практики.

Начальные требования

  • Базовые знания Linux (командная строка, файловая система)
  • Понимание принципов работы веб-приложений
  • Знание языка Python

Наши преподаватели

Программа курса

загружаем...
Certificate

Сертификат

Stepik

Отзывы прошедших курс

5
из 5
из 1 отзыва
1 отзыв
загружаем...

Что вы получаете

  • Практический опыт работы с реальными SRE-инструментами
  • Портфолио проектов для трудоустройства
  • Готовые шаблоны и скрипты для повседневной работы
  • Сертификат о прохождении курса
  • Знания, которые сразу можно применять в работе
  • Понимание процессов в крупных IT-компаниях

Сколько стоит обучение

Price: 12 990 
Пока нельзя купить этот курс
Вы попробовали и поняли, что вам сейчас не подходит этот курс? Ничего страшного, мы вернём вам деньги в течение 30-ти дней после покупки.

Расскажите о курсе друзьям

Price: 12 990 
Пока нельзя купить этот курс