Чему вы научитесь
- Проектировать архитектуру Spark-приложений для работы с датасетами на сотни миллионов строк.
- Оптимизировать запросы через понимание Catalyst, Tungsten и AQE - и сокращать время выполнения в 5-10 раз.
- Устранять перекосы данных (data skew) и бороться с OOM, используя техники salted join, broadcast hints и динамическую оптимизацию.
- Выбирать правильные стратегии join под конкретную задачу, а не полагаться на «авось Spark разберётся».
- Работать с оконными функциями и строить сложные агрегации без потери производительности.
- Писать эффективные UDF и Pandas UDF, понимая их узкие места и цену каждой сериализации.
- Применять партиционирование и бактерирование для ускорения чтения и join-ов на больших данных.
- Решать продуктовые задачи на PySpark: строить воронки, считать когортный retention, ARPU/ARPPU и анализировать A/B тесты.
- Читать и интерпретировать планы выполнения (explain) и логи Spark UI.
- Проходить собеседования в BigTech по PySpark — на реальных задачах уровня Middle+ и Senior.
О курсе
Это не просто задачник. Это полноценный тренировочный полигон для действующих и будущих инженеров данных.
Курс построен на реальных задачах, которые я сам давал на собеседованиях и решал в командах анализа данных и AI. Здесь нет абстрактных примеров - только то, с чем вы столкнётесь в продакшне и на интервью.
Что внутри:
-
60+ задач с автоматической проверкой (multiple choice, matching, код).
-
5 модулей - от архитектуры Spark до продуктовой аналитики и продакшн-оптимизации.
-
Финальный проект на 500 млн строк: воронка, когорты, ARPU/ARPPU, оптимизация под реальный кластер.
-
Практика code review - вы выступите в роли ревьюера и должны будете найти ошибки в коде.
Для кого этот курс
Data Engineers c опытом от 2 лет, которые хотят прокачаться до Senior и уверенно проходить собеседования в Яндекс, Сбер, Ozon, Тинькофф и зарубежные компании.
Data Scientists, которые работают с большими данными и хотят писать эффективный продакшн-код на PySpark, а не «колхозить» на ноутбуках.
Выпускники моего базового курса «40 задач PySpark» - если вы его прошли, этот курс - ваш следующий уровень.
Все, кто готовится к собеседованиям на позиции Middle+/Senior и хочет видеть не просто вопросы, а реальные кейсы с разбором ошибок и подводных камней.
Это курс для тех, кто готов платить за экспертизу, а не за пересказ документации.
Наши преподаватели
Программа курса
Сколько стоит обучение
Price:
3 490 ₽
Вы попробовали и поняли, что вам сейчас не подходит этот курс? Ничего страшного, мы вернём вам деньги в течение 30-ти дней после покупки.