Оставить заявку
Заказать звонок
г. Москва, ул. Бутлерова, д. 17, офис 3013. На карте

15 февраля 2019 Tproger, февраль 2019

Как выучить Big Data — отвечают эксперты

Андрей Майоров, технический директор РДТЕХ

О Big Data сегодня не слышал только человек, совсем далёкий от IT. Тем не менее, молодым IT-шникам не всегда понятно, с чего нужно начать изучение этой темы, какими навыками нужно обладать и какими инструментами стоит пользоваться. Редакция TProger решила узнать у экспертов, что они могут посоветовать.

Андрей Майоров, технический директор РДТЕХ:

Прежде всего, чтобы избежать путаницы, надо определиться, идёт ли речь о Big Datа или о Data Science. К сожалению, многие часто смешивают эти два понятия. Big Data — это набор в значительной степени инженерных технологий и продуктов для сбора, хранения и «преобразования» больших объёмов данных. В то время как Data Science — это методики и алгоритмы извлечения знаний из данных, не обязательно больших.

Что учить?

Основой Big Data является Hadoop. При первом знакомстве с Big Data лучше всего воспользоваться готовыми дистрибутивами от Cloudera или Hortonworks и изучить продукты, входящие в эти дистрибутивы:

- HDFS и форматы файлов ( avro, parquet, …);
- HBASE;
- MapReduce;
- Spark;
- Flume;
- Kafka;
- Hive и, может быть, Impala;
- Hue;
- Pig;
- …

И уже потом, понимая назначение и ограничения этих стандартных дистрибутивов, продвигаться к более новым и/или специализированным продуктам.

Поскольку большая часть продуктов написаны на Java или более современном Scala и предоставляют API на них же, то обойтись без этих языков в решении серьёзных задач вряд ли удастся. В ряде случаев поддерживается API на Python, что обычно ценится в привязке к Data Science.

Как учить?

Учить придётся самому: читая учебные материалы, руководства по продуктам, делая упражнения. Мечта об обучении во сне для Big Data не реализована.

Как получить учебные материалы?

Как обычно, есть два пути: платный и бесплатный. Платный — вендоры и учебные центры, которые имеют авторизованные программы обучения. Официальная сертификация — это всегда дополнительный плюс. Однако, если обучение с преподавателем и последующая сертификация не критичны, можно купить только подписку на учебные материалы. Например, в Cloudera есть отличная библиотека платных учебных курсов, которые можно освоить без преподавателя.

В качестве примера бесплатного обучения можно привести платформу Coursera, которая предлагает большое количество курсов и сертификаций, включая Big Data и Data Science. Курсы подготовлены ведущими университетами, в том числе и российскими. Есть и Yandex.

Вот, как пример, пара достойных курсов: «Functional Programming in Scala» и «Big Data for Data Engineers».

Пройти курс на Coursera можно бесплатно и в своём темпе, за сертификат придётся заплатить.

Ну и, наконец, есть множество ресурсов в интернете — возможно, не всеобъемлющих и не очень глубоких, но иногда отвечающих конкретно на вашу проблему.

Ознакомиться с полной версией обзора можно на https://tproger.ru

Возврат к списку

Пресс-центр

PR-служба РДТЕХ