Симулятор-практикум по Lakehouse: Iceberg + Spark

Знакомимся с архитектурой Lakehouse и назначением её компонентов: MinIO, Apache Iceberg, Lakekeeper и Spark. Разберёшься, как подключить Spark к Iceberg через свойства spark.sql.extensions и spark.sql.catalog, как указать тип rest и параметры S3.

На практике развернёшь стенд mydatalab, подключишься к S3, создашь…
Средний уровень

Чему вы научитесь

  • Разворачивать локальный стенд Lakehouse. Запускать готовое окружение (mydatalab) с помощью Docker Compose, чтобы экспериментировать с технологиями без облачных затрат.
  • Настраивать Spark-сессию для работы с Iceberg. Писать код на PySpark, который подключается к REST Catalog (Lakekeeper) и S3-совместимому хранилищу (MinIO), используя правильные конфигурационные свойства (spark.sql.extensions, spark.sql.catalog).
  • Управлять пространствами имен (namespace). Создавать namespace через Spark SQL (CREATE NAMESPACE ...), чтобы логически группировать таблицы.
  • Создавать таблицы в Spark. Создавать управляемые (managed) таблицы в формате Iceberg с определением колонок и типов данных.
  • Записывать данные в Iceberg таблицы. Выполнять запись данных двумя основными способами:
  • Используя DataFrame API (df.writeTo("...").append()).
  • Используя Spark SQL (INSERT INTO ... VALUES ...).

О курсе

Это бесплатная демоверсия сюжетного симулятора «Симулятор по проектированию Lakehouse на стеке Apache Spark и Iceberg»: предисловие и первая миссия тренажера.

Вы работаете в продуктовой ИТ-команде на позиции инженера данных. Ваш тимлид Бронислав и руководитель ИТ Енисей поставили амбициозную задачу: перевести компанию на современное облачное хранилище данных. Заказчик (в лице руководителя BI Ариелы) ждет результаты уже через неделю. Но есть нюанс: вы никогда не работали с Apache Spark и Iceberg и не знаете, как построить Lakehouse-архитектуру.

А что такое сюжетный симулятор?

Каждый шаг в тренажере — это новая вводная от руководителей или правка от заказчика. В демо вы пройдете первую миссию: познакомитесь с архитектурой Lakehouse и её компонентами (MinIO, Apache Iceberg, Lakekeeper и Spark), развернете локальный стенд mydatalab, создадите свой первый namespace и таблицу, а также запишете данные двумя способами: через DataFrame API и Spark SQL. Все задания выполняются на реальных задачах прямо в нашей облачной IDE.

В полной версии курса вас ждут еще 8 уроков, разделенных на три модуля. Модуль «Наполнение и управление схемами» научит вас настраивать партиционирование, инкрементальную загрузку через MERGE и версионировать витрины с помощью снапшотов и тегов. Модуль «Обслуживание таблиц» посвящен оптимизации хранилища, работе с метаданными и поиску «осиротевших» файлов. Итог полного курса — рабочий Lakehouse на стеке Apache Spark и Iceberg, готовый к масштабированию, от нуля до продукта.

Для кого этот курс

ДАТА ИНЖЕНЕР Переход с классических СУБД на Big Data Если вы работаете с реляционными базами и хотите освоить современный индустриальный стандарт — этот симулятор для вас. ДАТА АДМИНИСТРАТОР Архитектура хранения больших данных Разберитесь в устройстве табличных форматов и управлении метаданными в масштабируемых системах. ДАТА АРХИТЕКТОР Проектирование модульных систем Отработайте навыки построения архитектур с разделением хранения и вычислений на реальных кейсах.

Начальные требования

  • Опыт от 1 года в роли Data Engineer, Data Administrator или Data Architect.

  • Уверенный SQL: писать сложные запросы, понимать устройство таблиц и схем.

  • Базовый Python: читать и писать простой код, работать с данными.

  • Понимание основ DWH и ETL: знать, как устроены хранилища и процессы загрузки данных.

  • Навыки работы с терминалом: запускать команды, работать с Docker.

Важно: глубокие знания Spark, Iceberg и Lakehouse не требуются — мы всему научим на курсе.

Наши преподаватели

Как проходит обучение

Курс построен как сюжетный симулятор: вы — инженер данных Толик в продуктовой ИТ-команде, и каждый шаг — это новая вводная от руководителей (Енисея, Эдика, Ариелы) или правка от заказчика.

Теорию сразу закрепляете практикой: задания выполняются в облачной IDE прямо в браузере, с мгновенной автопроверкой — ничего устанавливать для заданий не нужно. Демо проходите бесплатно и в своем темпе.

Как выглядит обучение на практике:

  1. Погружение в контекст. Вы читаете диалоги команды, понимаете бизнес-задачу и технические требования.

  2. Теоретический блок. Изучаете документацию и отвечаете на вопросы, чтобы закрепить понимание архитектуры.

  3. Практика в IDE. Переходите в JupyterLab (встроенный в браузер) и выполняете код: настраиваете Spark, создаете таблицы, пишете запросы.

  4. Мгновенная проверка. Система автоматически проверяет ваше решение и показывает результат.

  5. Следующая вводная. В зависимости от успеха, вы переходите к следующему шагу с новым заданием от команды.

Итог: вы не просто смотрите лекции, а проживаете реальный проект от старта до готового продукта — Lakehouse на стеке Apache Spark и Iceberg.

Программа курса

загружаем...

Что вы получаете

  • Практические навыки работы с современным стеком Big Data, востребованные работодателем (Apache Spark, Iceberg, S3).
  • Возможность сразу отработать теорию на практике в реальной среде — вы не просто смотрите, а сами подключаете Spark к Iceberg и создаете таблицы.
  • Доступ к готовому локальному стенду mydatalab — всё необходимое для работы уже развернуто в Docker.
  • Понимание архитектуры Lakehouse и роли каждого компонента: MinIO (S3), Apache Iceberg, Lakekeeper и Spark.
  • Навыки настройки Spark-сессии для работы с Iceberg через свойства spark.sql.extensions и spark.sql.catalog.
  • Опыт работы с S3 — подключение к объектному хранилищу и создание namespace.
  • Опыт работы с таблицами в Iceberg — создание таблицы с полем message типа STRING.
  • Навыки записи данных двумя способами — через DataFrame API и через Spark SQL.
  • Базовые навыки работы с Jupyter Notebook в облачной IDE.
  • Бессрочный доступ к материалам демо-урока — можете возвращаться и пересматривать в любое время.
  • Понимание формата обучения — вы оцениваете, подходит ли вам сюжетный симулятор, и принимаете взвешенное решение о покупке полной версии курса.
Price: Бесплатно

Расскажите о курсе друзьям

Price: Бесплатно