Чему вы научитесь

Проектировать Озера Данных: Строить правильную Медальонную архитектуру данных от сырого слоя (Raw/Bronze) до готовых бизнес-витрин (Business/Gold).
Управлять объектными хранилищами: Понимать логику работы S3 API, бакетов и неизменяемости файлов (Immutability).
Оптимизировать Big Data запросы: Использовать колоночный формат Parquet, настраивать партиционирование данных по датам и применять технологию File Pruning (отсечение лишних файлов) для ускорения SQL-запросов в 100 раз.
Справляться с изменениями бизнеса: Настраивать эволюцию схем данных (Schema Evolution) и работать с передовыми табличными форматами вроде Apache Iceberg.

О курсе

Классические базы данных (PostgreSQL, MySQL) неизбежно «умирают», когда объем информации переваливает за терабайты. На смену им пришел мировой стандарт enterprise-разработки — архитектура Lakehouse (Озеро-Хранилище данных).

Этот курс — это 100% практическое руководство по проектированию и построению современных аналитических платформ нового поколения. Мы полностью сфокусируемся на концепции разделения хранения и вычислений (Storage & Compute) и научимся обрабатывать петабайты информации за копейки.

Основной упор курса сделан на стек технологий Trino и MinIO (S3), а в качестве расчетного движка в нашей интерактивной песочнице мы будем использовать ультрасовременный и быстрый DuckDB. Промокод TRINO_RUN

Для кого этот курс

Аналитики данных (Data Analysts): Которые хотят вырасти до уровня Senior/Lead, перестать зависеть от классических баз данных и научиться самостоятельно анализировать гигантские сырые логи из Озер данных. Начинающие инженеры данных (Data Engineers): Которые хотят получить крепкую базу, понять физику колоночного хранения, маппинга типов данных и построения ELT-пайплайнов. Backend-разработчики: Желающие расширить свой стек и понять, как устроена инфраструктура аналитики больших данных на стороне заказчика.

Начальные требования

Базовые знания синтаксиса SQL (умение писать простые SELECT, WHERE и GROUP BY).
Минимальное понимание того, как запускать готовые ячейки кода в Google Colab (на уровне нажатия кнопки Play). Знание Python не обязательно — весь тяжелый анализ мы пишем на чистом SQL.

Наши преподаватели

Как проходит обучение

Вам не понадобятся мощный компьютер, установка тяжелых программ или платные облака. Специально для курса мы разработали стабильную и легковесную песочницу внутри Google Colab.

Прямо в браузере в один клик вы развернете полноценное аналитическое окружение. Вы будете писать реальный SQL-код, имитировать загрузку логов, физически выгружать Parquet-файлы и строить автоматические конвейеры обработки данных.

Программа курса

загружаем...

Что вы получаете

Полноценное портфолио дата-инженера: Готовый репозиторий с рабочим кодом современной Lakehouse-платформы, который можно смело показывать на собеседованиях
.Доступ к интерактивной песочнице: Легковесный шаблон блокнота Google Colab, который запускается за 2 секунды, не падает по памяти и остается у вас навсегда для личных и рабочих проектов.
Глубокие практические навыки: Вы не просто изучите теорию Big Data, а своими руками настроите слои данных, выполните экспорт в Parquet, запустите федеративные запросы и построите сквозной ELT-конвейер.
Умение оптимизировать затраты бизнеса: Вы научитесь архитектурно разделять хранение и вычисления, настраивать партиционирование и File Pruning, что позволяет обрабатывать огромные массивы данных за минимальный бюджет.
Понимание современных Big Data трендов: Вы разберетесь в устройстве передовых технологий и форматов, таких как Trino, MinIO, Apache Iceberg и колоночное сжатие данных.
Пожизненный доступ к материалам: Все обновления уроков, текстовые конспекты без лишней воды и практические задачи со шпаргалками будут доступны вам в любое время.

Сколько стоит обучение

Часто задаваемые вопросы

Как оплатить курс в рассрочку?

Как оплатить от компании?

Расскажите о курсе друзьям

Прямая ссылка на курс:
https://stepik.org/292024

Построение аналитической платформы c Trino, MinIO (S3)