Чему вы научитесь
- Работа с RDD: создание, трансформация, базовые операции.
- DataFrames и SQL: работа с таблицами, фильтрация и агрегация данных.
- Функции: использование lambda, map, filter для обработки данных, и многие другие.
О курсе
Смысл курса — научить вас работе с библиотекой PySpark и познакомить с основным её синтаксисом, достаточным для решения большей части рабочих задач. Мы стремимся помочь вам освоить ключевые концепции и навыки, необходимые для эффективного использования PySpark в ваших проектах и исследованиях.
Цель курса:
- Научить эффективно использовать PySpark для обработки и анализа больших данных.
- Предоставить практические навыки работы с данными
Вы узнаете, как большие данные используются в различных отраслях, и научитесь работать с большими данными с помощью PySpark.
Вы узнаете о способах работы Spark с большими данными - использовании устойчивых распределенных наборов данных (Resilient Distributed Datasets, RDD) и датафреймов (DF).
Вы узнаете, как PySpark позволяет выполнять SQL-подобные запросы к большим массивам данных.
Для кого этот курс
Начальные требования
Знание Python
Рекомендуется, но не обязательно знание SQL
Наши преподаватели
Как проходит обучение
Онлайн формат: Вы получаете доступ к урокам в удобное для вас время, что позволяет учиться в собственном темпе.
Автоматические проверки: Выполняя кодовые задания, вы сразу увидите результат работы и сможете проверить свои ответы.
Тесты: Для самопроверки предусмотрены тесты, которые позволят оценить ваше понимание теоретического материала.
Программа курса
Сертификат
Что вы получаете
- Диплом
- Навыки работы с pySpark достаточные для качественной и эффективной работы
- Инструменты и знания необходимые для работы