Чему вы научитесь
- Понимать философию SRE и её отличия от классического DevOps: error budgets, toil reduction, blameless culture.
- Определять и внедрять SLI, SLO и SLA для сервисов, измерять надёжность количественно.
- Строить observability-системы: метрики, логи, трейсы. Работать с Prometheus, Grafana, Alertmanager, Jaeger.
- Настраивать эффективный алертинг: избегать alert fatigue, строить runbooks и on-call ротации.
- Проводить incident management: классификация инцидентов, эскалация, координация во время аварий.
- Писать post-mortem без поиска виноватых: анализ root cause, action items, предотвращение повторений.
- Автоматизировать рутину (toil): скрипты самовосстановления, auto-scaling, self-healing инфраструктура.
- Проектировать отказоустойчивые архитектуры: redundancy, graceful degradation, circuit breakers, retry policies.
- Проводить capacity planning и load testing: прогнозирование нагрузки, стресс-тесты, бенчмарки.
- Работать с Kubernetes с точки зрения надёжности: health checks, resource limits, PDB, HPA.
- Внедрять chaos engineering: Chaos Monkey, Litmus, контролируемые эксперименты над продакшеном.
- Строить CI/CD с учётом надёжности: canary deployments, blue-green, feature flags, rollback-стратегии.
- Управлять техническим долгом и балансировать скорость разработки с надёжностью системы.
- Готовиться к собеседованиям на позиции SRE: системный дизайн, troubleshooting, поведенческие вопросы.
О курсе
Этот курс — про инженерию надёжности для реальных высоконагруженных систем. Вы пройдёте путь от базового мониторинга до полноценной SRE-практики с error budgets, incident response и chaos engineering.
Внутри — не только «как настроить Prometheus», но и то, что важно в эксплуатации: как договориться о целевой надёжности с бизнесом, как не выгореть на on-call, как строить культуру, где аварии — это возможность улучшить систему, а не повод искать виноватых.
Ничего лишнего: каждое занятие завершается практическим артефактом — настроенным алертингом, написанным runbook, проведённым chaos-экспериментом или готовым post-mortem. Все проекты воспроизводятся по инструкциям.
Итог курса
На выходе вы построите полноценную SRE-практику для микросервисного приложения: observability-стек, SLO-дашборды, алертинг с runbooks, incident management процесс, chaos-тесты и документацию. Получившийся проект можно добавить в портфолио и использовать как основу для внедрения SRE в своей компании.
А больше информации о DevOps/Linux/SRE вы можете узнать в нашем тгк Linux Trends | DevOps & SRE
Вы также можете задать любой вопрос по курсу у автора t.me/stepikm
Для кого этот курс
Начальные требования
- Базовые знания Linux (командная строка, файловая система)
- Понимание принципов работы веб-приложений
- Знание языка Python
Наши преподаватели
Программа курса
Сертификат
Отзывы прошедших курс
Что вы получаете
- Практический опыт работы с реальными SRE-инструментами
- Портфолио проектов для трудоустройства
- Готовые шаблоны и скрипты для повседневной работы
- Сертификат о прохождении курса
- Знания, которые сразу можно применять в работе
- Понимание процессов в крупных IT-компаниях