EMBER_CLI_FASTBOOT_BODY

Hadoop. Система для обработки больших объемов данных

The course meets the formal recommendations of Stepik
Video Player is loading.
Current Time 0:00
/
Duration 0:00
Loaded: 0%
Progress: 0%
Stream Type LIVE
Remaining Time -0:00
 
1x
Play
To watch this video please visit https://stepik.org/lesson//step/

About the course

BigData, MapReduce, облачные вычисления, NoSQL. Все эти понятия стали популярными в последние годы. И все они связаны с распределенной обработкой больших объемов данных. Hadoop - одна из самых популярных open-source систем для обработки больших объемов данных. Необходимость в таких системах растет с каждым годом - все больше компаний сталкиваются с проблемой растущего объема данных.

Facebook, Twitter, Yahoo!, Bing, Mail.ru - это далеко не полный список компаний, которые используют Hadoop. Многие из них, при этом, активно участвуют в его развитии. И это неслучайно, т.к. именно большие интернет-компании первыми столкнулись с проблемой обработки больших объемов данных: как их надежно хранить, как обрабатывать, как получать быстрый доступ на их изменение. Сейчас Hadoop используется не только в интернет-компаниях, но и во многих других сферах, где возникает проблема с объемом данных (экономика, астрономия, биология, физика и т.д.)

Записывайтесь на наш курс и вы узнаете современные методы хранения и обработки больших объемов данных на примере системы Hadoop.

Instructors

  1. User picture
    Евгений Чернов
    Руководитель отдела анализа запросов в Поиск@Mail.ru, преподаватель Техносферы (проект МГУ и Mail.ru)
    Окончил факультет прикладной математики МФТИ. Несколько лет работал в Институте Системного Программирования РАН. Больше 5 лет работаю в Поиск@Mail.ru. Долгое время отвечал в нем за обработку всех пользовательских данных.

Reviews

3
Весь материал курс усвоить сложно, поскольку задачами покрыта только тема Hadoop Streaming. Другие темы (HDFS, YARN) содержат вопросы с коротким ответом и потому быстро забываются. Довольно подробно для обзорного курса рассмотрены инструменты Pig, Hive. С другой стороны, тема Spark, кажется, совсем не раскрыта, а о существовании ZooKeeper не говорится совсем. Но фундаментальный недостаток курса - в практике по MapReduce. Практика заключается в написании множества одинаковых задач (в основном, подсчёт частоты слов в тексте и другие вариации этой задачи), причём требуется реализовать только функции map и reduce. То есть в практике отсутствуют такие важные для MapReduce модели элементы, как Partitioner, SortingComparator, GroupingComparator. Если про этап Shuffle есть лекция, то про составной ключ и вторичную сортировку вообще не говорится ни слова. А без понимания этих вещей нельзя решить даже такую простую задачу как определение количества уникальных объектов (например, людей, посещающих какой-то веб-сайт). Таким образом, после прохождения курса вы станете специалистом по применению модели MapReduce к решению задачи подсчёта частоты слов в тексте.
Отличный курс! Рекомендую
Ekaterina Novikova December 6, 2018 link
5
Отличный курс: содержит полезные уроки и интересные задания. Помогает понять основные понятия BigData.
Play
To watch this video please visit https://stepik.org/lesson//step/
4.8 All reviews

Курс посвящен методам обработки больших объемов данных (BigData) с помощью системы Hadoop. После прохождения курса вы получите знания основных способов хранения и методов обработки больших объемов данных, поймете принципы работы распределенных систем в контексте фреймворка Hadoop и освоите практические навыки разработки приложений, используя программную модель MapReduce.

Workload:
3 часа в неделю
Expected time to complete:
29 hours
Language:
Русский
Certificate:
Mail.Ru
Certificate details
Certificate condition: 298 points
With distinction: 383 points

About the course

BigData, MapReduce, облачные вычисления, NoSQL. Все эти понятия стали популярными в последние годы. И все они связаны с распределенной обработкой больших объемов данных. Hadoop - одна из самых популярных open-source систем для обработки больших объемов данных. Необходимость в таких системах растет с каждым годом - все больше компаний сталкиваются с проблемой растущего объема данных.

Facebook, Twitter, Yahoo!, Bing, Mail.ru - это далеко не полный список компаний, которые используют Hadoop. Многие из них, при этом, активно участвуют в его развитии. И это неслучайно, т.к. именно большие интернет-компании первыми столкнулись с проблемой обработки больших объемов данных: как их надежно хранить, как обрабатывать, как получать быстрый доступ на их изменение. Сейчас Hadoop используется не только в интернет-компаниях, но и во многих других сферах, где возникает проблема с объемом данных (экономика, астрономия, биология, физика и т.д.)

Записывайтесь на наш курс и вы узнаете современные методы хранения и обработки больших объемов данных на примере системы Hadoop.

Requirements

Знание языков программирования не является обязательным, но очень желательно. В курсе есть примеры программ и в практических задачах нужно уметь читать и писать код. При этом используются Java и Python. Глубокого знания этих языков не требуется и проблем не будет, если вы знаете только С++. Нужно быть знакомым с Linux и уметь работать в командной строке. Желательно хотя бы немного знать английский язык, т.к. в курсе встречаются термины и надписи на английском.

Target audience

Студенты старших курсов, разработчики начального и среднего уровня. Также курс будет полезен тем, кто уже имеет небольшой опыт работы с Hadoop.

This course is entirely free. All content is available now.