powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
25 сообщений из 75, страница 2 из 3
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38688821
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакВладимир ШтепаВ Big data их структурируют на лету в процессе выполнения запроса.
Владимир,

а вот это структурирование не будет ли тормозить каждый раз при новом запросе?
И нет ли смысла каким-то образом все-таки поструктуризировать перед их заливкой в hadoop?
Даже после "структурирования" будет тормозить, хотя и не так сильно (тут все зависит от того, что и как парсим), но все же будет. Hadoop очень нерационально использует вычислительные ресурсы. Каждый mapper или reducer - это отдельный экземпляр JVM, который запускается каждый раз для каждого mapred job, вроде были какие-то работы в направлении использования потоков самой JVM, но насколько я помню оно так и не взлетело. Причем это каждый раз холодный старт. Перед Reduce step всегда должен быть Map step, даже если он не нужен, это ограничние самой вычислительной модели Map-Reduce, это то, что пробуют исправить в Tez. Обмен данными между map step и reduce step только через файловую систему. Сама HDFS живет поверх той FS, которая используется ОС на ваших серверах. Каждый блок HDFS - это просто файл на этой файловой системе. Напрямую с контроллерами оно не работает. Соответствие между блолками и файлами хранится на Name Node, в случае большого числа мелких файлов, которые меньше размера блока HDFS получите сильную нагрузку на Name Node. В общем там подводных камней очень много.
Так что мой вам совет, если ваши данные достаточно хорошо ложатся на реляционную модель и данных этих меньше полу-петабайта в сыром виде и у вас много пользователей, которые будут запускать Ad-Hoc запросы по ним, то скорее всего экономической выгоды от использования Hadoop для обработки этих данных вы не получите. Лучше взять реляционную MPP, самая примитивная и недорогая MPP реляционка подойдет для этой задачи лучше, чем связка Hadoop+Hive.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38688823
babona
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
надо так понимать, что Big Data - это очередной маркетинговый ход, позволяющий вытянуть из заказчиков большую денюжку, доить их благодаря магическому слову Big. Это же Big !! Оооо, значит и денег должно стоить много. А потом окажется, что опять надо много кодить, программистов много нанимать, их кормить, чтобы получить какие-то там отчетики, посмотреть и выбросить их.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38689014
DEVcoach
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ApexДаже после "структурирования" будет тормозить, хотя и не так сильно (тут все зависит от того, что и как парсим), но все же будет. Hadoop очень нерационально использует вычислительные ресурсы. Каждый mapper или reducer - это отдельный экземпляр JVM, который запускается каждый раз для каждого mapred job, вроде были какие-то работы в направлении использования потоков самой JVM, но насколько я помню оно так и не взлетело. Причем это каждый раз холодный старт. Перед Reduce step всегда должен быть Map step, даже если он не нужен, это ограничние самой вычислительной модели Map-Reduce, это то, что пробуют исправить в Tez. Обмен данными между map step и reduce step только через файловую систему. Сама HDFS живет поверх той FS, которая используется ОС на ваших серверах. Каждый блок HDFS - это просто файл на этой файловой системе. Напрямую с контроллерами оно не работает. Соответствие между блолками и файлами хранится на Name Node, в случае большого числа мелких файлов, которые меньше размера блока HDFS получите сильную нагрузку на Name Node. В общем там подводных камней очень много.Есть такое дело. Сейчас уже выходят продукты, которые вклиниваются в API Hadoop, а сами целиком подменяют его движок своей более эффективной имплементацией.
https://ca.finance.yahoo.com/news/gridgain-brings-first-true-plug-120000856.html
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38689044
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
babonaнадо так понимать, что Big Data - это очередной маркетинговый ход, позволяющий вытянуть из заказчиков большую денюжку, доить их благодаря магическому слову Big. Это же Big !! Оооо, значит и денег должно стоить много. А потом окажется, что опять надо много кодить, программистов много нанимать, их кормить, чтобы получить какие-то там отчетики, посмотреть и выбросить их.
Надо понимать, что изначально продукт писался для очень ограниченного круга задач, где хорошая масштабируемость была важнее рациональности использования вычислительных мощностей. Теперь же, да, благодаря ушлым продажникам, для которых по-сути важно лишь, сколько и чего они могут продать, а не то, поможет это рельно клиенту или нет, это превратилось в marketing buzz и теперь эту сову пытаются натянуть на каждый глобус.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38689768
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apexесли ваши данные достаточно хорошо ложатся на реляционную модель и данных этих меньше полу-петабайта в сыром виде ... то скорее всего экономической выгоды от использования Hadoop для обработки этих данных вы не получите100500++
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38689783
babona
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
:)
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38746186
Всем советую не запускать виртуалку от Cloudera на VirtualBox - жрет весь проц, и непонятно чем занимается.
Та же виртуалка только под vmware работает отлично.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38969065
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Начал изучать Apache Spark
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38969674
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Несколько слов о заблюждениях.
Hadoop это не RDBMS. У них разные подходы к информации, соответственно у каждого свои плюсы и минусы.

RDBMS - это Schema-on-Write. Т.е. вначале создаем схему, а потом данные форматируем под этот шаблон при сохранении (записи).

Hadoop - это Schema-on-Read. Т.е. вначале сохраняем ВСЕ данные в файл(ы), а потом при чтении форматируем данные по нужному шаблону и выдаем клиенту.

Т.е. Hadoop ценен когда у нас огромное количество неструктурированных данных, на которые возможно когда-то понадобится наложить какой-то фильтр и увидеть результат.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38969683
babona
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODA,

хорошее замечание. Спасибо.

Вопрос по Hadoop: а взаимоувязку данных между собой, чистку, довосстановление - подразумеватся делать в момент чтения данных?
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38969691
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да, для текстовых файлов лежащих в Hadoop либо пишите сложный Map - Reduce на Python например, либо обрабатываете в Spark более гибко с использованием join и агрегирований, либо кладете в "реляционные таблицы" Hive и либо через него, либо через Cloudera Impala пищите SQL подобные запросы. Либо Hadoop - это большое хранилище на которое сверху ETL указанными выше способами, результаты в реляционку или Key-Value DB и дальше продолжаете обработку.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38969736
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
babonaВопрос по Hadoop: а взаимоувязку данных между собой, чистку, довосстановление - подразумеватся делать в момент чтения данных?

По классике ядро Hadoop состоит из двух кусков:

1. HDFS (Hadoop Distributed File System) - файловая система где мы храним 2,3,... n -копий наших данных. Заточен на Put/Get/Delete. Если нужны частые Insert, то видимо Hadoop не нужно выбирать.

2. MapReduce - читает ВСЕ данные и форматирует по нужному шаблону.

Все. :-)
Дальше можно навешать множество "приблуд" сверху в зависимости от своих задач.

Но важно помнить, что Hadoop для огромных и, как правило, не меняющихся данных, которые могут нам когда-то пригодиться. Инструмент для обработки таких данных (MapReduce) - это простой скрипт или Java-программа которые запускаются в парралель на тех же серверах где и лежат куски данных.

"Приблуды" коих становится все больше могут, иногда, облегчить такую обработку.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38969744
babona
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вопрос:

продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38969748
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Через SQL - подобные "прослойки" к Hadoop: Hive, Cloudera Impala, Spark.
Либо цепляете через эти драйвера BI систему: MicroStrategy, Tableau и другие.
+ в некоторых СУБД, в т.ч. MS SQL заявлена "прозрачность" схемы как реляционной, так и "Hadoop", т.е. единый SQL запрос к обоим движками, правда я это не щупал и как выглядит - не знаю)
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38969753
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
babonaвопрос:

продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?Этих людей к Hadoop-подобным штукам пускать нереально
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38972354
Alexander RyndinЭтих людей к Hadoop-подобным штукам пускать нереально
А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу.
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #38972526
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакAlexander RyndinЭтих людей к Hadoop-подобным штукам пускать нереально
А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу.какой объём данных?

Модератор: Тема перенесена из форума "OLAP и DWH".
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #39119466
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакAlexander RyndinЭтих людей к Hadoop-подобным штукам пускать нереально
А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу.

и как? получилось?
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #39140975
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот курс, который включает видео и тестовые задания:

https://stepic.org/course/Hadoop-Система-для-обработки-больших-объемов-данных-150/
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #39151272
Don4anin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Камрады, с самообучением все понятно, направление очень популярное и перспективное, но как перейти к практической части? как получить коммерческий опыт? стартапы? частичная занятость? участие в проекте за идею?

P.S. Сам чистый DBA, но решительно настроен запрыгнуть в этот экспресс, несущийся уже на бешеной скорости и набирающий все новые обороты
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #39151878
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander Ryndinbabonaвопрос:

продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?Этих людей к Hadoop-подобным штукам пускать нереально
Ты наверное будешь смеяться, но так делали в Expedia, не знаю как там сейчас, но когда я там был, они реально так работали, финансисты и менеджеры реально сидели в Hue и гоняли там запросы. Вот вам и "продвинутость" ИТ в иностранных корпорациях:)
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #39228410
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apex,

вообщем сделал следующее.
1. развернул виртуальную машину с cliudera
2. зашел http://quickstart.cloudera:8888/impala/ --- т.е это интерфейс клоудеры
3. написал запрос в импала (select count(*) as xx from sample_07) , причем не понятно sample_07 это таблица в hbase или hdfs
4. получил ответ.

все ок!

Теперь к практической стороне

Я вижу следующую задачу:
есть csv файл "F1".
его надо как то передать в hadoop (Loading data into HDFS using Hue) --- этот пункт хотелось бы сделать без доп интерфейсов
далее установить драйвер "Microsoft Hive ODBC Driver"
( https://www.microsoft.com/en-us/download/details.aspx?id=40886)

далее написать запрос
select * from openquery (Hadoop, 'select count(*) as xx from Sample_07')
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #39228718
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Driver Version: V1.1.0.0

Running connectivity tests...

Attempting connection
Failed to establish connection
SQLSTATE: HY000[Microsoft][HiveODBC] (34) Error from Hive: connect() failed: errno = 10061.

TESTS COMPLETED WITH ERROR
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #39229182
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

Разрядность драйвера какая?
У меня на 64 все ок:
...
Рейтинг: 0 / 0
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
    #39229308
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624мигель1,

Разрядность драйвера какая?
У меня на 64 все ок:

тоже 64

Но меня смущает что у Вас название базы "test" и нет поля "daa source name"
значит не cloudera, а сами разворачивали?
...
Рейтинг: 0 / 0
25 сообщений из 75, страница 2 из 3
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]