powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
25 сообщений из 75, страница 1 из 3
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38664352
В интернете материалов по Big Data я вижу очень много.
И даже есть готовые виртуальные машины.

Вопрос в том, какие из них самые качественные для самообучения с нуля?
Кто уже прошел этот путь - можете поделиться, с чего новичкам начинать обучение?
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38664362
Jack Carver
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если нужны книги, то советую эти:
1. Hadoop: The Definitive Guide, 3rd Edition ( pdf )
2. Programming Hive ( pdf )
3. Programming Pig ( pdf )
4. Apache Sqoop Cookbook ( pdf )
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38664365
Jack Carver
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Оговорюсь, эти книги хороши для начала.
Потом все равно нужно читать мануалы с домашних страниц проектов Hadoop, Cloudera (Cloudera Manager), Hive, Pig, Sqoop, HBase, Mahout... тема BigData стремительно развивается, книги очень быстро устаревают.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38664368
По книгам понятно. Спасибо.

А на счет виртуалок готовых: есть ли где-то готовая с нормальными примерами?

Вот например, если бы меня кто-либо попросил "дай виртуалку с примерами с Micrsosoft OLAP, Analysis Services, и хорошими готовыми базами данных на не", то я бы посоветовал вот эту
http://clinthuijbers.wordpress.com/2012/05/23/new-sql-server-2012-rtm-fully-integrated-demo-hyper-v/


Есть ли аналогичная с примерами данных, только с big data-фаршем?
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38664374
Jack Carver
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38664421
smikesh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь Бобак,

практически все коммерческие дистрибьюторы предоставляют
есть и клаудера, и хортонворкс и мапр

я бы рекомендовал посмотреть на Mapr более внимательно, с их дистирбуцией можно и на амазон еластик мап редьюс.

еще интересная связка это apache shark-spark-tachyon

hive сам по себе уже давно потерял актуальность, сейчас нужно смотреть либо на impala, shark or tez :)) причем для каждого нужно использовать свой формат хранения данных :)
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38664470
IT-Shaman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Игорь Бобак,
есть отличный ресурс от IBM с виртуалками и курсами - http://bigdatauniversity.com/
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38664597
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
smikeshhive сам по себе уже давно потерял актуальность, сейчас нужно смотреть либо на impala, shark or tezчто, правда...? :)) а мужики то и не знают.
это из разряда "какая субд лучше, от оракла или от майкрософт" - тож самое вид с боку.

Игорь, смотрите вот это:
Hortonworks Sandbox
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38664691
smikesh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушкачто, правда...? :)) а мужики то и не знают.
не выпендривались бы лучше, вот допилят тез, хайв снова станет актуальным
кстати именно его ваш любимый хортонворкс и пытается пилить, правда пока не особо успешно ((
Дедушкаэто из разряда "какая субд лучше, от орала или от майкрософт" - тож самое вид с боку.
это из разряда что лучше, in-memory или как раньше на диске :))
здесь есть некоторая разница в отличии от орала и мелкософта :))
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38666914
Начал разбираться по видео с Cloudera.
Не очень у них удобная навигация по сайту, зато видео - то, что надо.

Параллельно пытался на ютубе найти нормальные use cases, и вот проблемка - а их почти нет...
Ну по крайней мере, мне не попались.

То есть, хочу увидеть видео, в котором было бы вот так:

"стояла задача сделать анализ продаж/покупателей/маркетинговых кампаний/чего угодно.
работает такая-то ERP, которая собирает данные. Данных - несколько десятков терабайт за 10 лет.

сделали такую-то модель хранилища данных на hadoop, для этого задействовали
такое-то железо, поставили или разработали такое-то средство визуализации, и вот сейчас покажем
как работают отчеты. вот давайте откроем отчет по .... и посмотрим - видите, отрабатывает за 10 секунд.
из результата делаем вывод, что такой-то регион где-то позади. роем вглубь в этот регион, смотрим
продажи по каналам. видим, что там такая-то проблема. роем дальше. ... и т.д. - пока не поняли в чем проблема".


Пока что попадаются видео, в которых показано как круто уметь писать SQL запросы на Hive или же
на java писать mapreduce-код, как круто запускать из консоли компиляцию этого всего добра, пропихивать куда-то
на сервер и т.д.

Да, это все круто. Но это - для меня (то есть, для технаря).
А вот если бы я хотел заказчику показать use case - все, облом.

Может кто-нибудь знает ссылки на демонстрации в подобном стиле - то есть "показываем как мы решали конкретную задачу" ?
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38666916
babona
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
От сегодня снова был на переговорах в крупной федеральной конторе, с IT-руководством.
Ни ODS ни DWH толком не сделали, а про БигДату, ESB рассуждают
Oracle, PWC, надо понимать, уже не модно
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38666923
Люди не понимают, что big data - это тот же data warehouse, только distributed.

Hadoop + Hive - это тот же движок SQL запросов (типа оракла или mssql), только недоделанный (цитирую слова одного опытного человека, с коротым разговаривал сегодня) и который тоже distributed.

И если они еще не делали простой data warehouse, то почему они думают, что distributed dw им будет сделать легко и от этого будет мгновенное счастье?
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38667960
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь Бобак работает такая-то ERP, которая собирает данные. Данных - несколько десятков терабайт за 10 лет. имхо, hadoop тут вообще ни при чём.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38668187
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
smikeshИгорь Бобак,

практически все коммерческие дистрибьюторы предоставляют
есть и клаудера, и хортонворкс и мапр

я бы рекомендовал посмотреть на Mapr более внимательно, с их дистирбуцией можно и на амазон еластик мап редьюс.

еще интересная связка это apache shark-spark-tachyon

hive сам по себе уже давно потерял актуальность, сейчас нужно смотреть либо на impala, shark or tez :)) причем для каждого нужно использовать свой формат хранения данных :)
Не в защиту Hive, который для меня убогое поделие индусских студентов из Мордокниги, но tez'у его противопоставлять нельзя. Это как противопоставлять двигатель автомобилю.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38668191
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакЛюди не понимают, что big data

Люди не понимают, что big data - это такой модный слоган, который позволяет увеличить продажи, поэтому его лепят и куда надо и куда не надо.

Игорь Бобакэто тот же data warehouse, только distributed.
Big Data - это big data, data warehouse - это data warehouse, а distributed - это distributed.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38668198
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакHadoop + Hive - это тот же движок SQL запросов (типа оракла или mssql), только недоделанный (цитирую слова одного опытного человека, с коротым разговаривал сегодня) и который тоже distributed.

Hadoop - это движек (среда) выполнения MapReduce, Hive - это транслятор SQL в MapReduce код.

Игорь БобакИ если они еще не делали простой data warehouse, то почему они думают, что distributed dw им будет сделать легко и от этого будет мгновенное счастье?
Вы бы порядок в голове по этому вопросу навели сначала, а потом рассуждали.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38668245
ApexВы бы порядок в голове по этому вопросу навели сначала, а потом рассуждали.
Не совсем понимаю, к чему эти оскорбления.

От моего первого поста до последнего успел пересмотреть кучу видеоуроков и прочитать много материала. И если посмотреть на схему (см. ниже), то hadoop - это ничто иное, как хранилище данных, разложенное по частям на много узлов.

Или я может не тот термин использовал? Если это так, то можно и культурно меня поправить, а не давать грубые оценки о порядке в голове.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38668318
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакНе совсем понимаю, к чему эти оскорбления.


Да упаси боже, когда я оскорбляю кого-то, я обычно матом пишу. А так скорее язвительный (да, это признаю) совет и одновременно намек капнуть глубже.

Игорь БобакОт моего первого поста до последнего успел пересмотреть кучу видеоуроков и прочитать много материала. И если посмотреть на схему (см. ниже), то hadoop - это ничто иное, как хранилище данных, разложенное по частям на много узлов.

Или я может не тот термин использовал? Если это так, то можно и культурно меня поправить, а не давать грубые оценки о порядке в голове.

Ну, наверное и в термине тоже, фраза "хранилище данных, разложенное по частям на много узлов" звучит даже с точки зрения не буковеда очень коряво. Что вы понимаете под хранилищем? СУБД на которой оно реализовано? А под распределенным хранилищем?
К тому же, вы, похоже, слишком хорошего мнения о Hadoop, он гораздо примитивнее, чем кажется на первый взгляд. Это просто фреймворк, набор библиотек для исполнения MapReduce + пара-тройка сервисов поддержки и распределенная файловая система HDFS. По большому счету все. Файлопомойка с возможностью распределенной обработки данных. Можно ли реализовать на этом хранилище? Теоретически да, даже практически можно, если задаться целью. Правда, это примерно как пытаться реализовать хранилище на файловой системе, теоретически можно, но на парктике никто не делает.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38668378
Фотография Hunterik
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexК тому же, вы, похоже, слишком хорошего мнения о Hadoop, он гораздо примитивнее, чем кажется на первый взгляд. Это просто фреймворк, набор библиотек для исполнения MapReduce + пара-тройка сервисов поддержки и распределенная файловая система HDFS. По большому счету все. Файлопомойка с возможностью распределенной обработки данных. Можно ли реализовать на этом хранилище? Теоретически да, даже практически можно, если задаться целью. Правда, это примерно как пытаться реализовать хранилище на файловой системе, теоретически можно, но на парктике никто не делает.
"Слюшай, аполитично рассуждаешь, да!" =)))
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38668691
smikesh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexНе в защиту Hive, который для меня убогое поделие индусских студентов из Мордокниги, но tez'у его противопоставлять нельзя. Это как противопоставлять двигатель автомобилю.

я тез хайву и не противопоставляю.

хайв это ща уже скорее стандарт, АПИ, язык и набор библиотек. И это все реализует все кому не лень, и импала, и shark-spark-tachyon и наверно много кто другой.
тез это как бы водородный двигатель для автомобиля с паровым котлом ) с этим я согласен :))
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38682463
Наблюдаю у себя на виртуальных машинах, что виртуалка от Cloudera - быстрее.

В то же время, у Hortonworks лучшие тьюториалы и больше их в бесплатном доступе.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38688522
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apex, полностью Вас поддерживаю.

Слоненок это распределенная файловая система для хранения неструктурированных данных.
Ее использование приходит на повестку дня, когда приблизительно возникает ситуация, данных у нас вал, они не структурированы ( логи, тексты твитов, мэйлы, чаты) или плохо структурированы или с точки зрения rdbms неудобно структурированы. (XML)

Мы не заморачиваемся их структуриванием перед сохранением (ETL экономится) а свалиевем это в кучу. Быстро и избыточно по разным компьютерам.

Для того чтобы анализировать эти данны и иметь преимущества от их распределенного хранения, выдаем задачу с распределением по нескольким узлам. То есть не тянем данные к алгоритмам, а отправляем алгоритмы к данным. Которые сначала парсят данные, а потом делают необходимые преобразования.

Для каждого аналитического запроса нужно писать свой алгоритм - это попытались формализовать через hive, получися бледный sql интерфейс для слоненка.

В классическом DWH/olap данные структурируют перед сохранением на столько подробно, на сколько это требуют бизнес пользователи, чтобы они могли получить ответы практически на любые вопросы

В Big data их структурируют на лету в процессе выполнения запроса.

поправьте или дополните меня, если я что то пропустил или заблуждаюсь
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38688526
Владимир ШтепаВ Big data их структурируют на лету в процессе выполнения запроса.
Владимир,

а вот это структурирование не будет ли тормозить каждый раз при новом запросе?
И нет ли смысла каким-то образом все-таки поструктуризировать перед их заливкой в hadoop?
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38688549
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакВладимир ШтепаВ Big data их структурируют на лету в процессе выполнения запроса.
Владимир,

а вот это структурирование не будет ли тормозить каждый раз при новом запросе?
И нет ли смысла каким-то образом все-таки поструктуризировать перед их заливкой в hadoop?Конечно будет тормозить. Вот только структурировать нужно как раз в hadoop, а затем сохранять результат структуризации, аггрегации, очистки в том же hadoop, либо более подходщяем для этого месте.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38688562
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Конечно можно но это все в ручную. Слоненок не знает ничего об устройстве хранимых в нем файлов и не умеет смотреть в их содержимое. Это могут только ваши алгоримы.
Автоматизма мало, точнее совсем нет.
...
Рейтинг: 0 / 0
25 сообщений из 75, страница 1 из 3
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]