|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Игорь БобакВладимир ШтепаВ Big data их структурируют на лету в процессе выполнения запроса. Владимир, а вот это структурирование не будет ли тормозить каждый раз при новом запросе? И нет ли смысла каким-то образом все-таки поструктуризировать перед их заливкой в hadoop? Даже после "структурирования" будет тормозить, хотя и не так сильно (тут все зависит от того, что и как парсим), но все же будет. Hadoop очень нерационально использует вычислительные ресурсы. Каждый mapper или reducer - это отдельный экземпляр JVM, который запускается каждый раз для каждого mapred job, вроде были какие-то работы в направлении использования потоков самой JVM, но насколько я помню оно так и не взлетело. Причем это каждый раз холодный старт. Перед Reduce step всегда должен быть Map step, даже если он не нужен, это ограничние самой вычислительной модели Map-Reduce, это то, что пробуют исправить в Tez. Обмен данными между map step и reduce step только через файловую систему. Сама HDFS живет поверх той FS, которая используется ОС на ваших серверах. Каждый блок HDFS - это просто файл на этой файловой системе. Напрямую с контроллерами оно не работает. Соответствие между блолками и файлами хранится на Name Node, в случае большого числа мелких файлов, которые меньше размера блока HDFS получите сильную нагрузку на Name Node. В общем там подводных камней очень много. Так что мой вам совет, если ваши данные достаточно хорошо ложатся на реляционную модель и данных этих меньше полу-петабайта в сыром виде и у вас много пользователей, которые будут запускать Ad-Hoc запросы по ним, то скорее всего экономической выгоды от использования Hadoop для обработки этих данных вы не получите. Лучше взять реляционную MPP, самая примитивная и недорогая MPP реляционка подойдет для этой задачи лучше, чем связка Hadoop+Hive. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.07.2014, 12:30 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
надо так понимать, что Big Data - это очередной маркетинговый ход, позволяющий вытянуть из заказчиков большую денюжку, доить их благодаря магическому слову Big. Это же Big !! Оооо, значит и денег должно стоить много. А потом окажется, что опять надо много кодить, программистов много нанимать, их кормить, чтобы получить какие-то там отчетики, посмотреть и выбросить их. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.07.2014, 12:40 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
ApexДаже после "структурирования" будет тормозить, хотя и не так сильно (тут все зависит от того, что и как парсим), но все же будет. Hadoop очень нерационально использует вычислительные ресурсы. Каждый mapper или reducer - это отдельный экземпляр JVM, который запускается каждый раз для каждого mapred job, вроде были какие-то работы в направлении использования потоков самой JVM, но насколько я помню оно так и не взлетело. Причем это каждый раз холодный старт. Перед Reduce step всегда должен быть Map step, даже если он не нужен, это ограничние самой вычислительной модели Map-Reduce, это то, что пробуют исправить в Tez. Обмен данными между map step и reduce step только через файловую систему. Сама HDFS живет поверх той FS, которая используется ОС на ваших серверах. Каждый блок HDFS - это просто файл на этой файловой системе. Напрямую с контроллерами оно не работает. Соответствие между блолками и файлами хранится на Name Node, в случае большого числа мелких файлов, которые меньше размера блока HDFS получите сильную нагрузку на Name Node. В общем там подводных камней очень много.Есть такое дело. Сейчас уже выходят продукты, которые вклиниваются в API Hadoop, а сами целиком подменяют его движок своей более эффективной имплементацией. https://ca.finance.yahoo.com/news/gridgain-brings-first-true-plug-120000856.html ... |
|||
:
Нравится:
Не нравится:
|
|||
06.07.2014, 23:50 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
babonaнадо так понимать, что Big Data - это очередной маркетинговый ход, позволяющий вытянуть из заказчиков большую денюжку, доить их благодаря магическому слову Big. Это же Big !! Оооо, значит и денег должно стоить много. А потом окажется, что опять надо много кодить, программистов много нанимать, их кормить, чтобы получить какие-то там отчетики, посмотреть и выбросить их. Надо понимать, что изначально продукт писался для очень ограниченного круга задач, где хорошая масштабируемость была важнее рациональности использования вычислительных мощностей. Теперь же, да, благодаря ушлым продажникам, для которых по-сути важно лишь, сколько и чего они могут продать, а не то, поможет это рельно клиенту или нет, это превратилось в marketing buzz и теперь эту сову пытаются натянуть на каждый глобус. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.07.2014, 07:11 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Apexесли ваши данные достаточно хорошо ложатся на реляционную модель и данных этих меньше полу-петабайта в сыром виде ... то скорее всего экономической выгоды от использования Hadoop для обработки этих данных вы не получите100500++ ... |
|||
:
Нравится:
Не нравится:
|
|||
07.07.2014, 19:55 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
:) ... |
|||
:
Нравится:
Не нравится:
|
|||
07.07.2014, 20:24 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Всем советую не запускать виртуалку от Cloudera на VirtualBox - жрет весь проц, и непонятно чем занимается. Та же виртуалка только под vmware работает отлично. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.09.2014, 02:04 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Начал изучать Apache Spark ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 17:43 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Несколько слов о заблюждениях. Hadoop это не RDBMS. У них разные подходы к информации, соответственно у каждого свои плюсы и минусы. RDBMS - это Schema-on-Write. Т.е. вначале создаем схему, а потом данные форматируем под этот шаблон при сохранении (записи). Hadoop - это Schema-on-Read. Т.е. вначале сохраняем ВСЕ данные в файл(ы), а потом при чтении форматируем данные по нужному шаблону и выдаем клиенту. Т.е. Hadoop ценен когда у нас огромное количество неструктурированных данных, на которые возможно когда-то понадобится наложить какой-то фильтр и увидеть результат. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2015, 12:45 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
GASTROPODA, хорошее замечание. Спасибо. Вопрос по Hadoop: а взаимоувязку данных между собой, чистку, довосстановление - подразумеватся делать в момент чтения данных? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2015, 12:51 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Да, для текстовых файлов лежащих в Hadoop либо пишите сложный Map - Reduce на Python например, либо обрабатываете в Spark более гибко с использованием join и агрегирований, либо кладете в "реляционные таблицы" Hive и либо через него, либо через Cloudera Impala пищите SQL подобные запросы. Либо Hadoop - это большое хранилище на которое сверху ETL указанными выше способами, результаты в реляционку или Key-Value DB и дальше продолжаете обработку. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2015, 12:56 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
babonaВопрос по Hadoop: а взаимоувязку данных между собой, чистку, довосстановление - подразумеватся делать в момент чтения данных? По классике ядро Hadoop состоит из двух кусков: 1. HDFS (Hadoop Distributed File System) - файловая система где мы храним 2,3,... n -копий наших данных. Заточен на Put/Get/Delete. Если нужны частые Insert, то видимо Hadoop не нужно выбирать. 2. MapReduce - читает ВСЕ данные и форматирует по нужному шаблону. Все. :-) Дальше можно навешать множество "приблуд" сверху в зависимости от своих задач. Но важно помнить, что Hadoop для огромных и, как правило, не меняющихся данных, которые могут нам когда-то пригодиться. Инструмент для обработки таких данных (MapReduce) - это простой скрипт или Java-программа которые запускаются в парралель на тех же серверах где и лежат куски данных. "Приблуды" коих становится все больше могут, иногда, облегчить такую обработку. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2015, 13:23 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
вопрос: продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2015, 13:29 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Через SQL - подобные "прослойки" к Hadoop: Hive, Cloudera Impala, Spark. Либо цепляете через эти драйвера BI систему: MicroStrategy, Tableau и другие. + в некоторых СУБД, в т.ч. MS SQL заявлена "прозрачность" схемы как реляционной, так и "Hadoop", т.е. единый SQL запрос к обоим движками, правда я это не щупал и как выглядит - не знаю) ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2015, 13:35 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
babonaвопрос: продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?Этих людей к Hadoop-подобным штукам пускать нереально ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2015, 13:38 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Alexander RyndinЭтих людей к Hadoop-подобным штукам пускать нереально А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.05.2015, 13:41 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Игорь БобакAlexander RyndinЭтих людей к Hadoop-подобным штукам пускать нереально А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу.какой объём данных? Модератор: Тема перенесена из форума "OLAP и DWH". ... |
|||
:
Нравится:
Не нравится:
|
|||
30.05.2015, 23:40 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Игорь БобакAlexander RyndinЭтих людей к Hadoop-подобным штукам пускать нереально А вот это мы проверим. Там я в другой ветке написал что собираюсь реализовать с помощью Mondrian + Spark SQL. Если выйдет - опубликую на блоге и тут ссылку сброшу. и как? получилось? ... |
|||
:
Нравится:
Не нравится:
|
|||
03.12.2015, 14:21 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Вот курс, который включает видео и тестовые задания: https://stepic.org/course/Hadoop-Система-для-обработки-больших-объемов-данных-150/ ... |
|||
:
Нравится:
Не нравится:
|
|||
31.12.2015, 08:34 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Камрады, с самообучением все понятно, направление очень популярное и перспективное, но как перейти к практической части? как получить коммерческий опыт? стартапы? частичная занятость? участие в проекте за идею? P.S. Сам чистый DBA, но решительно настроен запрыгнуть в этот экспресс, несущийся уже на бешеной скорости и набирающий все новые обороты ... |
|||
:
Нравится:
Не нравится:
|
|||
20.01.2016, 11:46 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Alexander Ryndinbabonaвопрос: продвинутым пользователям экномистам, финансистам (Power Users) - adHoc выборки данных как делать?Этих людей к Hadoop-подобным штукам пускать нереально Ты наверное будешь смеяться, но так делали в Expedia, не знаю как там сейчас, но когда я там был, они реально так работали, финансисты и менеджеры реально сидели в Hue и гоняли там запросы. Вот вам и "продвинутость" ИТ в иностранных корпорациях:) ... |
|||
:
Нравится:
Не нравится:
|
|||
20.01.2016, 23:51 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Apex, вообщем сделал следующее. 1. развернул виртуальную машину с cliudera 2. зашел http://quickstart.cloudera:8888/impala/ --- т.е это интерфейс клоудеры 3. написал запрос в импала (select count(*) as xx from sample_07) , причем не понятно sample_07 это таблица в hbase или hdfs 4. получил ответ. все ок! Теперь к практической стороне Я вижу следующую задачу: есть csv файл "F1". его надо как то передать в hadoop (Loading data into HDFS using Hue) --- этот пункт хотелось бы сделать без доп интерфейсов далее установить драйвер "Microsoft Hive ODBC Driver" ( https://www.microsoft.com/en-us/download/details.aspx?id=40886) далее написать запрос select * from openquery (Hadoop, 'select count(*) as xx from Sample_07') ... |
|||
:
Нравится:
Не нравится:
|
|||
02.05.2016, 15:39 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
Driver Version: V1.1.0.0 Running connectivity tests... Attempting connection Failed to establish connection SQLSTATE: HY000[Microsoft][HiveODBC] (34) Error from Hive: connect() failed: errno = 10061. TESTS COMPLETED WITH ERROR ... |
|||
:
Нравится:
Не нравится:
|
|||
03.05.2016, 20:10 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
мигель1, Разрядность драйвера какая? У меня на 64 все ок: ... |
|||
:
Нравится:
Не нравится:
|
|||
04.05.2016, 15:16 |
|
Где взять хорошие учебники/видео по Hadoop, MapReduce, Hive и т.д.?
|
|||
---|---|---|---|
#18+
mishanya3624мигель1, Разрядность драйвера какая? У меня на 64 все ок: тоже 64 Но меня смущает что у Вас название базы "test" и нет поля "daa source name" значит не cloudera, а сами разворачивали? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.05.2016, 17:03 |
|
|
start [/forum/topic.php?fid=48&msg=39140975&tid=1856702]: |
0ms |
get settings: |
9ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
29ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
61ms |
get tp. blocked users: |
1ms |
others: | 64ms |
total: | 197ms |
0 / 0 |