Чему вы научитесь
- Установка DataLens, Superset, ClickHouse и других инструментов с помощью Docker
- Частично затронем администрирование ClickHouse
- Изучим DataLens
- Изучим Superset
- Разработаем реальный дашборд (отчёт)
- Разработаем миниатюрное DWH (хранилище данных)
- Изучим наилучшие практики составления отчётов
- Разберём подводные камни, поймём, как и почему делать нужно/не нужно
- Изучим Apache Airflow
- Научимся парсить источники данных
- Организуем ETL-процесс и full data pipeline (от извлечения данных до дашборда)
О курсе
Добро пожаловать на курс!
Задать вопросы перед прохождением можно ЗДЕСЬ
Программа курса рассчитана на погружение учащихся в весь жизненный путь данных - от источника до дашборда. Фактически, мы создадим полностью Data Analyst инфраструктуру с нуля, сами. Будем устанавливать необходимые инструменты, администрировать их (немного, но будем), разрабатывать на них. Станет понятно, как устроена практически любая компания, работающая с данными. В конечном итоге выстроим проект: развернем всю инфраструктуру - извлечем данные из источника - отрисуем дашборд - автоматизируем ETL - процесс.
Инструменты, используемые в курсе, будут рассмотрены лишь на уровне, необходимом для реализации наших задач. Например, в Airflow не будет рассмотрена автогенерация дагов, написание собственных хуков и т.д. Это весьма специфичные задачи, и нет необходимости тратить на них силы и время. За счет таких оптимизаций получается максимально быстрый "вкат" во все процессы - всего 5.5 часов видео-лекций. При желании, можно пройти курс за 2-3 дня и получить ДОСТАТОЧНЫЕ навыки для работы на позиции Junior Data Engineer / Junior BI-developer.
В бесплатной части оставлены инструкции по установке необходимой инфраструктуры с помощью Docker - перед покупкой пройдите ее, чтобы понять, достаточно ли ресурсов вашего ПК. Также прочитайте необходимые начальные навыки - требуется знание Python/SQL на базовом уровне.
Что предстоит делать
- Изучать текстовые/видеоматериалы
- Выполнять интересные, приближенные к реальным задачи на локально развернутой инфраструктуре
- Читать полезные статьи, которые будут приложены к курсу
Как устроен курс
- Лекция в формате видеозаписи + текстовые инструкции, если необходимо
- Выполнение тестовых заданий по лекции
- Разработка, приближенная к реальной
Какие темы затронем
- все, что связано с данными, кроме ML
Для кого этот курс
Данный курс предназначен для всех, кто так или иначе работает / планирует работать с данными.
Начальные требования
Для успешного прохождения курса необходимо:
- Знание Docker, либо быть готовым повторить всё за преподавателем
- Знания SQL обязательно (select, where, group by, having, order by, join и т.д.). Вы умеете писать SQL-запросы. Вы понимаете, что такое база данных, и что различных систем управления базой данных (СУБД) очень много (Postgres, ClickHouse, MySQL и т.д.). Вы готовы работать с SQL, так как в курсе очень много будет связано именно с БД.
- Знания Python обязательно - вы знакомы с типами данных, функциями. Знаете про библиотеки - панды ваши друзья. Желательно знать какую-либо IDE (PyCharm, VSCode), но не обязательно.
Рекомендуемые системные требования Docker:
- Процессор: Intel Core i5 8400 Coffee Lake или лучше (в реальности достаточно и i3)
- Память: 8 ГБ оперативной памяти (в реальности достаточно и 4-5ГБ)
- Хранение: 100 ГБ SSD (в реальности не менее 10ГБ)
Для того, что вы могли понять, достаточно ли ресурсов вашего компьютера для прохождения курса, уроки с установкой Docker, DataLens, Superset, ClickHouse и Airflow будут доступны бесплатно.
Наши преподаватели
Программа курса
Сертификат
Что вы получаете
- Востребованные работодателями знания
- Умение работать с самым передовым стеком технологий
- Понимание процессов большинства компаний
- Понимание полного жизненного цикла данных
- Комьюнити единомышленников
- Помощь наставника
- Удочку, так как всю инфраструктуру развернем локально, и сможете экспериментировать как угодно
- Сертификат