Apache Iceberg для Data Engineer

Данный курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS.

Забудьте про…
Средний уровень
Сертификат Stepik

Чему вы научитесь

  • Развертывать и настраивать среду: Вы научитесь поднимать инфраструктуру для работы с Iceberg, настраивать каталоги и интегрировать их с вычислительными движками.
  • Проектировать архитектуру таблиц: Вы поймете внутреннее устройство формата (Metadata, Snapshots, Manifests) и сможете объяснять, как Iceberg обеспечивает атомарность и изоляцию транзакций.
  • Управлять транзакциями и версиями: Вы научитесь использовать Time Travel для запросов к историческим данным и выполнять Rollback, чтобы мгновенно восстанавливать таблицы после ошибок в коде.
  • Эволюционировать схемы без боли: Вы освоите Schema Evolution (добавление/удаление колонок по ID) и Partition Evolution, научившись менять логику партиционирования данных без полной перезаписи таблиц.
  • Применять стратегии обновления данных: Вы разберетесь в разнице между Copy-on-Write и Merge-on-Read и сможете выбирать оптимальный режим под конкретные бизнес-задачи.
  • Работать с данными как с кодом (Branching): Вы освоите продвинутую модель веток (Branching & Tagging), научитесь реализовывать паттерн WAP (Write-Audit-Publish) для проверки качества данных перед их публикацией в продакшен.
  • Снижать стоимость хранения: Вы научитесь управлять жизненным циклом данных, настраивать очистку старых снимков и манифестов, оптимизируя расходы на облачное хранилище (S3/GCS).

О курсе

Всем привет! Меня зовут Александр Озерцов, и я рад приветствовать вас на курсе «Apache Iceberg для Data Engineer».

Этот курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное Lakehouse хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS.

В рамках курса мы не просто разберем теорию, а пройдем путь от настройки окружения до продвинутого управления данными. Мы изучим:

  • Архитектуру и транзакции: поймем, как работают манифесты и почему ваши данные больше никогда не «развалятся» при одновременной записи.

  • Гибкие схемы: научимся менять структуру таблиц и партиционирование без перезаписи петабайт данных.

  • Оптимизации: разберем стратегии удаления старых данных, различные подходы к ведению таблиц, а также Deletion Vectors.

  • Branch model: освоим работу с ветками данных (WAP — Write-Audit-Publish), чтобы тестировать изменения в изоляции, как в Git.

Для кого этот курс

Этот курс идеально подойдет специалистам, которые устали от ограничений классического Hive-подхода и готовы перевести свои данные на новый уровень управления. Несмотря на то, что в курсе практика ведется на Apache Spark, я намеренно использовал преимущественно SQL синтаксис, чтобы курс был понятен как Data engineer, так и Data аналитикам.

Начальные требования

Что нужно знать и иметь перед стартом:

  • SQL (базовый/средний уровень): свободное владение SELECT, JOIN, GROUP BY и понимание DDL-операций.

  • Основы Spark или Python: умение прочитать данные и запустить простой скрипт/нотбук.

  • Базовое понимание Data Lake: если вы знаете, чем папка в S3/HDFS отличается от таблицы в базе данных, вам будет проще.

  • Docker: умение запустить контейнер через docker-compose.

Наши преподаватели

Как проходит обучение

Курс разбит на несколько тематических глав, каждая из которых построена по принципу «от боли к решению»:

  1. Разбор проблемы: Мы начинаем с изучения реальных сценариев, где классические подходы (вроде Hive) дают сбой. Будь то конфликты при записи, медленный поиск данных или «рассыпающаяся» схема таблицы.

  2. Теоретический блок: Разбираем внутреннюю механику Iceberg — как именно он спроектирован, чтобы этих проблем не возникало.

  3. Практический практикум: Переходим в консоль и на реальных примерах в Spark смотрим, как Iceberg элегантно решает задачу в коде.

Программа курса

загружаем...
Certificate

Сертификат

Сертификат Stepik

Сколько стоит обучение

Price: 4 980 
Вы попробовали и поняли, что вам сейчас не подходит этот курс? Ничего страшного, мы вернём вам деньги в течение 30-ти дней после покупки.

Часто задаваемые вопросы

Расскажите о курсе друзьям

Price: 4 980