Чему вы научитесь
- Развертывать и настраивать среду: Вы научитесь поднимать инфраструктуру для работы с Iceberg, настраивать каталоги и интегрировать их с вычислительными движками.
- Проектировать архитектуру таблиц: Вы поймете внутреннее устройство формата (Metadata, Snapshots, Manifests) и сможете объяснять, как Iceberg обеспечивает атомарность и изоляцию транзакций.
- Управлять транзакциями и версиями: Вы научитесь использовать Time Travel для запросов к историческим данным и выполнять Rollback, чтобы мгновенно восстанавливать таблицы после ошибок в коде.
- Эволюционировать схемы без боли: Вы освоите Schema Evolution (добавление/удаление колонок по ID) и Partition Evolution, научившись менять логику партиционирования данных без полной перезаписи таблиц.
- Применять стратегии обновления данных: Вы разберетесь в разнице между Copy-on-Write и Merge-on-Read и сможете выбирать оптимальный режим под конкретные бизнес-задачи.
- Работать с данными как с кодом (Branching): Вы освоите продвинутую модель веток (Branching & Tagging), научитесь реализовывать паттерн WAP (Write-Audit-Publish) для проверки качества данных перед их публикацией в продакшен.
- Снижать стоимость хранения: Вы научитесь управлять жизненным циклом данных, настраивать очистку старых снимков и манифестов, оптимизируя расходы на облачное хранилище (S3/GCS).
О курсе
Всем привет! Меня зовут Александр Озерцов, и я рад приветствовать вас на курсе «Apache Iceberg для Data Engineer».
Этот курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное Lakehouse хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS.
В рамках курса мы не просто разберем теорию, а пройдем путь от настройки окружения до продвинутого управления данными. Мы изучим:
-
Архитектуру и транзакции: поймем, как работают манифесты и почему ваши данные больше никогда не «развалятся» при одновременной записи.
-
Гибкие схемы: научимся менять структуру таблиц и партиционирование без перезаписи петабайт данных.
-
Оптимизации: разберем стратегии удаления старых данных, различные подходы к ведению таблиц, а также Deletion Vectors.
-
Branch model: освоим работу с ветками данных (WAP — Write-Audit-Publish), чтобы тестировать изменения в изоляции, как в Git.
Для кого этот курс
Начальные требования
Что нужно знать и иметь перед стартом:
-
SQL (базовый/средний уровень): свободное владение
SELECT,JOIN,GROUP BYи понимание DDL-операций. -
Основы Spark или Python: умение прочитать данные и запустить простой скрипт/нотбук.
-
Базовое понимание Data Lake: если вы знаете, чем папка в S3/HDFS отличается от таблицы в базе данных, вам будет проще.
-
Docker: умение запустить контейнер через
docker-compose.
Наши преподаватели
Как проходит обучение
Курс разбит на несколько тематических глав, каждая из которых построена по принципу «от боли к решению»:
-
Разбор проблемы: Мы начинаем с изучения реальных сценариев, где классические подходы (вроде Hive) дают сбой. Будь то конфликты при записи, медленный поиск данных или «рассыпающаяся» схема таблицы.
-
Теоретический блок: Разбираем внутреннюю механику Iceberg — как именно он спроектирован, чтобы этих проблем не возникало.
-
Практический практикум: Переходим в консоль и на реальных примерах в Spark смотрим, как Iceberg элегантно решает задачу в коде.