Как выучить Big Data — отвечают эксперты
О Big Data сегодня не слышал только человек, совсем далёкий от IT. Тем не менее, молодым IT-шникам не всегда понятно, с чего нужно начать изучение этой темы, какими навыками нужно обладать и какими инструментами стоит пользоваться. Редакция TProger решила узнать у экспертов, что они могут посоветовать.
Андрей Майоров, технический директор РДТЕХ:
Прежде всего, чтобы избежать путаницы, надо определиться, идёт ли речь о Big Datа или о Data Science. К сожалению, многие часто смешивают эти два понятия. Big Data — это набор в значительной степени инженерных технологий и продуктов для сбора, хранения и «преобразования» больших объёмов данных. В то время как Data Science — это методики и алгоритмы извлечения знаний из данных, не обязательно больших.
Что учить?
Основой Big Data является Hadoop. При первом знакомстве с Big Data лучше всего воспользоваться готовыми дистрибутивами от Cloudera или Hortonworks и изучить продукты, входящие в эти дистрибутивы:- HDFS и форматы файлов ( avro, parquet, …);
- HBASE;
- MapReduce;
- Spark;
- Flume;
- Kafka;
- Hive и, может быть, Impala;
- Hue;
- Pig;
- …
И уже потом, понимая назначение и ограничения этих стандартных дистрибутивов, продвигаться к более новым и/или специализированным продуктам.
Поскольку большая часть продуктов написаны на Java или более современном Scala и предоставляют API на них же, то обойтись без этих языков в решении серьёзных задач вряд ли удастся. В ряде случаев поддерживается API на Python, что обычно ценится в привязке к Data Science.
Как учить?
Учить придётся самому: читая учебные материалы, руководства по продуктам, делая упражнения. Мечта об обучении во сне для Big Data не реализована.Как получить учебные материалы?
Как обычно, есть два пути: платный и бесплатный. Платный — вендоры и учебные центры, которые имеют авторизованные программы обучения. Официальная сертификация — это всегда дополнительный плюс. Однако, если обучение с преподавателем и последующая сертификация не критичны, можно купить только подписку на учебные материалы. Например, в Cloudera есть отличная библиотека платных учебных курсов, которые можно освоить без преподавателя.В качестве примера бесплатного обучения можно привести платформу Coursera, которая предлагает большое количество курсов и сертификаций, включая Big Data и Data Science. Курсы подготовлены ведущими университетами, в том числе и российскими. Есть и Yandex.
Вот, как пример, пара достойных курсов: «Functional Programming in Scala» и «Big Data for Data Engineers».
Пройти курс на Coursera можно бесплатно и в своём темпе, за сертификат придётся заплатить.
Ну и, наконец, есть множество ресурсов в интернете — возможно, не всеобъемлющих и не очень глубоких, но иногда отвечающих конкретно на вашу проблему.
Ознакомиться с полной версией обзора можно на https://tproger.ru