Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.? / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

25 сообщений из 75, страница 2 из 3

все

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38688821

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Игорь БобакВладимир ШтепаВ Big data их структурируют на лету в процессе выполнения запроса.
Владимир,

а вот это структурирование не будет ли тормозить каждый раз при новом запросе?
И нет ли смысла каким-то образом все-таки поструктуризировать перед их заливкой в hadoop?
Даже после "структурирования" будет тормозить, хотя и не так сильно (тут все зависит от того, что и как парсим), но все же будет. Hadoop очень нерационально использует вычислительные ресурсы. Каждый mapper или reducer - это отдельный экземпляр JVM, который запускается каждый раз для каждого mapred job, вроде были какие-то работы в направлении использования потоков самой JVM, но насколько я помню оно так и не взлетело. Причем это каждый раз холодный старт. Перед Reduce step всегда должен быть Map step, даже если он не нужен, это ограничние самой вычислительной модели Map-Reduce, это то, что пробуют исправить в Tez. Обмен данными между map step и reduce step только через файловую систему. Сама HDFS живет поверх той FS, которая используется ОС на ваших серверах. Каждый блок HDFS - это просто файл на этой файловой системе. Напрямую с контроллерами оно не работает. Соответствие между блолками и файлами хранится на Name Node, в случае большого числа мелких файлов, которые меньше размера блока HDFS получите сильную нагрузку на Name Node. В общем там подводных камней очень много.
Так что мой вам совет, если ваши данные достаточно хорошо ложатся на реляционную модель и данных этих меньше полу-петабайта в сыром виде и у вас много пользователей, которые будут запускать Ad-Hoc запросы по ним, то скорее всего экономической выгоды от использования Hadoop для обработки этих данных вы не получите. Лучше взять реляционную MPP, самая примитивная и недорогая MPP реляционка подойдет для этой задачи лучше, чем связка Hadoop+Hive.

...

Рейтинг:

0 / 0

06.07.2014, 12:30

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38688823

babona

Участник

Откуда: Батуринск

Сообщения: 1 205

Рейтинг: 0 / 0

надо так понимать, что Big Data - это очередной маркетинговый ход, позволяющий вытянуть из заказчиков большую денюжку, доить их благодаря магическому слову Big. Это же Big !! Оооо, значит и денег должно стоить много. А потом окажется, что опять надо много кодить, программистов много нанимать, их кормить, чтобы получить какие-то там отчетики, посмотреть и выбросить их.

...

Рейтинг:

0 / 0

06.07.2014, 12:40

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38689014

DEVcoach

Гость

ApexДаже после "структурирования" будет тормозить, хотя и не так сильно (тут все зависит от того, что и как парсим), но все же будет. Hadoop очень нерационально использует вычислительные ресурсы. Каждый mapper или reducer - это отдельный экземпляр JVM, который запускается каждый раз для каждого mapred job, вроде были какие-то работы в направлении использования потоков самой JVM, но насколько я помню оно так и не взлетело. Причем это каждый раз холодный старт. Перед Reduce step всегда должен быть Map step, даже если он не нужен, это ограничние самой вычислительной модели Map-Reduce, это то, что пробуют исправить в Tez. Обмен данными между map step и reduce step только через файловую систему. Сама HDFS живет поверх той FS, которая используется ОС на ваших серверах. Каждый блок HDFS - это просто файл на этой файловой системе. Напрямую с контроллерами оно не работает. Соответствие между блолками и файлами хранится на Name Node, в случае большого числа мелких файлов, которые меньше размера блока HDFS получите сильную нагрузку на Name Node. В общем там подводных камней очень много.Есть такое дело. Сейчас уже выходят продукты, которые вклиниваются в API Hadoop, а сами целиком подменяют его движок своей более эффективной имплементацией.
https://ca.finance.yahoo.com/news/gridgain-brings-first-true-plug-120000856.html

...

Рейтинг:

0 / 0

06.07.2014, 23:50

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38689044

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

babonaнадо так понимать, что Big Data - это очередной маркетинговый ход, позволяющий вытянуть из заказчиков большую денюжку, доить их благодаря магическому слову Big. Это же Big !! Оооо, значит и денег должно стоить много. А потом окажется, что опять надо много кодить, программистов много нанимать, их кормить, чтобы получить какие-то там отчетики, посмотреть и выбросить их.
Надо понимать, что изначально продукт писался для очень ограниченного круга задач, где хорошая масштабируемость была важнее рациональности использования вычислительных мощностей. Теперь же, да, благодаря ушлым продажникам, для которых по-сути важно лишь, сколько и чего они могут продать, а не то, поможет это рельно клиенту или нет, это превратилось в marketing buzz и теперь эту сову пытаются натянуть на каждый глобус.

...

Рейтинг:

0 / 0

07.07.2014, 07:11

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38689768

Дедушка

Участник

Откуда: Город трёх революций

Сообщения: 4 572

Рейтинг: 0 / 0

Apexесли ваши данные достаточно хорошо ложатся на реляционную модель и данных этих меньше полу-петабайта в сыром виде ... то скорее всего экономической выгоды от использования Hadoop для обработки этих данных вы не получите100500++

...

Рейтинг:

0 / 0

07.07.2014, 19:55

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38689783

babona

Участник

Откуда: Батуринск

Сообщения: 1 205

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

07.07.2014, 20:24

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38746186

Игорь Бобак

Гость

Всем советую не запускать виртуалку от Cloudera на VirtualBox - жрет весь проц, и непонятно чем занимается.
Та же виртуалка только под vmware работает отлично.

...

Рейтинг:

0 / 0

14.09.2014, 02:04

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38969065

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

Начал изучать Apache Spark

...

Рейтинг:

0 / 0

26.05.2015, 17:43

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38969674

GASTROPODA

Гость

Несколько слов о заблюждениях.
Hadoop это не RDBMS. У них разные подходы к информации, соответственно у каждого свои плюсы и минусы.

RDBMS - это Schema-on-Write. Т.е. вначале создаем схему, а потом данные форматируем под этот шаблон при сохранении (записи).

Hadoop - это Schema-on-Read. Т.е. вначале сохраняем ВСЕ данные в файл(ы), а потом при чтении форматируем данные по нужному шаблону и выдаем клиенту.

Т.е. Hadoop ценен когда у нас огромное количество неструктурированных данных, на которые возможно когда-то понадобится наложить какой-то фильтр и увидеть результат.

...

Рейтинг:

0 / 0

27.05.2015, 12:45

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38969683

babona

Участник

Откуда: Батуринск

Сообщения: 1 205

Рейтинг: 0 / 0

GASTROPODA,

хорошее замечание. Спасибо.

Вопрос по Hadoop: а взаимоувязку данных между собой, чистку, довосстановление - подразумеватся делать в момент чтения данных?

...

Рейтинг:

0 / 0

27.05.2015, 12:51

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38969691

Вжик

Участник

Откуда: Москва

Сообщения: 642

Рейтинг: 0 / 0

Да, для текстовых файлов лежащих в Hadoop либо пишите сложный Map - Reduce на Python например, либо обрабатываете в Spark более гибко с использованием join и агрегирований, либо кладете в "реляционные таблицы" Hive и либо через него, либо через Cloudera Impala пищите SQL подобные запросы. Либо Hadoop - это большое хранилище на которое сверху ETL указанными выше способами, результаты в реляционку или Key-Value DB и дальше продолжаете обработку.

...

Рейтинг:

0 / 0

27.05.2015, 12:56

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38969736

GASTROPODA

Гость

babonaВопрос по Hadoop: а взаимоувязку данных между собой, чистку, довосстановление - подразумеватся делать в момент чтения данных?

По классике ядро Hadoop состоит из двух кусков:

1. HDFS (Hadoop Distributed File System) - файловая система где мы храним 2,3,... n -копий наших данных. Заточен на Put/Get/Delete. Если нужны частые Insert, то видимо Hadoop не нужно выбирать.

2. MapReduce - читает ВСЕ данные и форматирует по нужному шаблону.

Все. :-)
Дальше можно навешать множество "приблуд" сверху в зависимости от своих задач.

Но важно помнить, что Hadoop для огромных и, как правило, не меняющихся данных, которые могут нам когда-то пригодиться. Инструмент для обработки таких данных (MapReduce) - это простой скрипт или Java-программа которые запускаются в парралель на тех же серверах где и лежат куски данных.

"Приблуды" коих становится все больше могут, иногда, облегчить такую обработку.

...

Рейтинг:

0 / 0

27.05.2015, 13:23

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38969744

babona

Участник

Откуда: Батуринск

Сообщения: 1 205

Рейтинг: 0 / 0

вопрос:

продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?

...

Рейтинг:

0 / 0

27.05.2015, 13:29

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38969748

Вжик

Участник

Откуда: Москва

Сообщения: 642

Рейтинг: 0 / 0

Через SQL - подобные "прослойки" к Hadoop: Hive, Cloudera Impala, Spark.
Либо цепляете через эти драйвера BI систему: MicroStrategy, Tableau и другие.
+ в некоторых СУБД, в т.ч. MS SQL заявлена "прозрачность" схемы как реляционной, так и "Hadoop", т.е. единый SQL запрос к обоим движками, правда я это не щупал и как выглядит - не знаю)

...

Рейтинг:

0 / 0

27.05.2015, 13:35

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38969753

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

babonaвопрос:

продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?Этих людей к Hadoop-подобным штукам пускать нереально

...

Рейтинг:

0 / 0

27.05.2015, 13:38

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38972354

Игорь Бобак

Гость

Alexander RyndinЭтих людей к Hadoop-подобным штукам пускать нереально
А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу.

...

Рейтинг:

0 / 0

30.05.2015, 13:41

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#38972526

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

Игорь БобакAlexander RyndinЭтих людей к Hadoop-подобным штукам пускать нереально
А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу.какой объём данных?

Модератор: Тема перенесена из форума "OLAP и DWH".

...

Рейтинг:

0 / 0

30.05.2015, 23:40

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#39119466

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

03.12.2015, 14:21

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#39140975

Станислав Клевцов

Участник

Откуда: Krasnodar-Russia

Сообщения: 529

Рейтинг: 0 / 0

Вот курс, который включает видео и тестовые задания:

https://stepic.org/course/Hadoop-Система-для-обработки-больших-объемов-данных-150/

...

Рейтинг:

0 / 0

31.12.2015, 08:34

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#39151272

Don4anin

Участник

Сообщения: 28

Рейтинг: 0 / 0

Камрады, с самообучением все понятно, направление очень популярное и перспективное, но как перейти к практической части? как получить коммерческий опыт? стартапы? частичная занятость? участие в проекте за идею?

P.S. Сам чистый DBA, но решительно настроен запрыгнуть в этот экспресс, несущийся уже на бешеной скорости и набирающий все новые обороты

...

Рейтинг:

0 / 0

20.01.2016, 11:46

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#39151878

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Alexander Ryndinbabonaвопрос:

продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?Этих людей к Hadoop-подобным штукам пускать нереально
Ты наверное будешь смеяться, но так делали в Expedia, не знаю как там сейчас, но когда я там был, они реально так работали, финансисты и менеджеры реально сидели в Hue и гоняли там запросы. Вот вам и "продвинутость" ИТ в иностранных корпорациях:)

...

Рейтинг:

0 / 0

20.01.2016, 23:51

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#39228410

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

Apex,

вообщем сделал следующее.
1. развернул виртуальную машину с cliudera
2. зашел http://quickstart.cloudera:8888/impala/ --- т.е это интерфейс клоудеры
3. написал запрос в импала (select count(*) as xx from sample_07) , причем не понятно sample_07 это таблица в hbase или hdfs
4. получил ответ.

все ок!

Теперь к практической стороне

Я вижу следующую задачу:
есть csv файл "F1".
его надо как то передать в hadoop (Loading data into HDFS using Hue) --- этот пункт хотелось бы сделать без доп интерфейсов
далее установить драйвер "Microsoft Hive ODBC Driver"
( https://www.microsoft.com/en-us/download/details.aspx?id=40886)

далее написать запрос
select * from openquery (Hadoop, 'select count(*) as xx from Sample_07')

...

Рейтинг:

0 / 0

02.05.2016, 15:39

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#39228718

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

Driver Version: V1.1.0.0

Running connectivity tests...

Attempting connection
Failed to establish connection
SQLSTATE: HY000[Microsoft][HiveODBC] (34) Error from Hive: connect() failed: errno = 10061.

TESTS COMPLETED WITH ERROR

...

Рейтинг:

0 / 0

03.05.2016, 20:10

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#39229182

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

мигель1,

Разрядность драйвера какая?
У меня на 64 все ок:

...

Рейтинг:

0 / 0

04.05.2016, 15:16

| Ответить | Цитировать | Написать

Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

#39229308

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

mishanya3624мигель1,

Разрядность драйвера какая?
У меня на 64 все ок:

тоже 64

Но меня смущает что у Вас название базы "test" и нет поля "daa source name"
значит не cloudera, а сами разворачивали?

...

Рейтинг:

0 / 0

04.05.2016, 17:03

| Ответить | Цитировать | Написать

25 сообщений из 75, страница 2 из 3

все

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&msg=39229182&tid=1856702]:	0ms
get settings:	8ms
get forum list:	16ms
check forum access:	3ms
check topic access:	3ms
track hit:	55ms
get topic data:	9ms
get forum data:	2ms
get page messages:	67ms
get tp. blocked users:	1ms
others:	216ms

total:	380ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы