|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Можно ли развернуть кластер hadoop на компьютерах пользователей? Например, в офисе работает 100 человек. Днём они работают, а ночью компьютеры просто стоят включёнными. Можно ли создать кластер из этих компьютеров, так чтобы по ночам запускать вычисления? Делал ли так что-нибудь, или для кластера нужно разворачивать именно отдельные сервера? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.06.2017, 09:51 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Принципиально, сервер не отличается от десктопа. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.06.2017, 10:12 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Ок, спасибо. Ещё несколько вопросов: 1. Hadoop на windows и на linux идентичны в плане функциональности? т.е. есть какие-либо ограничения на windows версии hadoop, которых нет на linux? 2. Может ли часть узлов быть windows, а часть linux? или, например, главный узел на linux, а все data node на windows? 3. Если я не хочу кодить на JAVA, а хочу использовать HIVE и PIG, то нужно ли их устанавливать на каждом узле, или достаточно установить только на главном узле (с которого я буду запускать обработки)? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.06.2017, 10:26 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Max_11111Можно ли развернуть кластер hadoop на компьютерах пользователей?технически возможно, но "дешёвые и простые компы" для кластера это миф (ну только разве, что вы не собираетесь хело-ворд запускать типа подсчёт букв) ... |
|||
:
Нравится:
Не нравится:
|
|||
08.06.2017, 14:15 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Max_11111Ок, спасибо. Ещё несколько вопросов: 1. Hadoop на windows и на linux идентичны в плане функциональности? т.е. есть какие-либо ограничения на windows версии hadoop, которых нет на linux? Вроде как сейчас хадуп работает на винде, но таким извращением никто обычно не занимается. Max_111112. Может ли часть узлов быть windows, а часть linux? или, например, главный узел на linux, а все data node на windows? Могут быть проблемы даже если диски разного размера. У нас на тестовом кластере было 5 нод у которых у 2х были большие диски, у 3х маленькие. Когда места стало мало- он стал постоянно вставать раком- типа место ещё есть, но сбалансировать объём он никак не мог. Max_111113. Если я не хочу кодить на JAVA, а хочу использовать HIVE и PIG, то нужно ли их устанавливать на каждом узле, или достаточно установить только на главном узле (с которого я буду запускать обработки)? Поросёнок запускает обычные m/r задачи. hive вроде тоже. Так что ответ- можно. Наверное. Но про всю затею в целом- намучаетесь. Хадуп это система из г@вна и палок. Он и так работает нестабильно, если кластер из одинаковых машин с оптикой между ними собирать. А ваш случай- это очень рисковое мероприятие. Мало того, что проблемы будут, так ещё их решать будет сложно даже опытному погонщику слоников, а Вы, как я понимаю, новичёк. Арендуйте в облаке каком-нибудь машины- будет всё работать нормально. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.06.2017, 16:48 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Alexey TominАрендуйте в облаке каком-нибудь машины- будет всё работать нормально. так суть предложения автора топика в экономии, а вы предлагаете тратить ... |
|||
:
Нравится:
Не нравится:
|
|||
11.06.2017, 19:45 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
КритикAlexey TominАрендуйте в облаке каком-нибудь машины- будет всё работать нормально. так суть предложения автора топика в экономии, а вы предлагаете тратить Такая экономия дорого выйдет. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.06.2017, 07:27 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
В общем решили пока в Azure поизучать hadoop, у них вроде всё необходимое есть. + даётся подписка на месяц для тестирования любых служб. потом решим уже: арендовать мощности в облаках, или самим собирать кластер. Посмотрев конфигурации узлов в Azure закрались сомнения в том есть ли вообще смысл на пользовательских компьютерах пытаться построить кластер - мощности в среднем различаются в несколько раз. Возник такой вопрос: допустим у меня есть сервер (проц - 16 ядер, оперативка - 192 Гб). Есть 3 варианта его использования 1- hadoop кластер из 4 узлов, где у каждого узла доступно: 4 ядра, 48 оперативы 2- hadoop кластер из 8 узлов, где у каждого узла доступно: 2 ядра, 24 оперативы 3- 1 SQL сервер 2017 и произвожу вычисления на SQL + R (Microsoft распараллелил R) Будет ли профит от кластера hadoop, состоящего из виртуалок, развёрнутых на одном сервере, по сравнению с использованием самого сервера? Если да, то выигрыш в производительности будет заметным, или минимальным? И какие узлы лучше делать: много слабых, или мало но мощных (например 1 или 2 варианты лучше?)? ... |
|||
:
Нравится:
Не нравится:
|
|||
14.06.2017, 12:01 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Max_11111, использование хадупа для увеличения производительности "расчётов" (типа распараллелим на много нод - посчитается быстрее) это такой же миф как и "можно собрать хадуп на дешёвых и слабых узлах" R и хадуп ортогональны друг другу, вы озвучьте задачу которую пытаетесь решить (с "распараллеливанием" R тож не всё однозначно) Max_11111И какие узлы лучше делать: много слабых, или мало но мощныхдля узлов нужны мощные сервера выше уже отвечал. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.06.2017, 18:34 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Дедушка, Пока задача стоит - разобраться что из себя представляет hadoop и как с ним работать. с R или без него. Задачи, которые мы надеемся решить: поиск похожих товаров, поиск сопутствующих товаров, анализ комментариев к товарам (чтобы понимать что в нём плохого, а что хорошего), анализ логов. Пока часть задач в том или ином виде решена через SQL и SSAS Data Mining. Чего хочется от hadoop - ускорения расчётов, реализации других алгоритмов (сейчас они либо с костылями, либо непрозрачные, в которых мы не знаем что происходит и как выдаётся результат) ... |
|||
:
Нравится:
Не нравится:
|
|||
15.06.2017, 03:44 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Max_11111Пока задача стоит - разобраться что из себя представляет hadoop и как с ним работать. с R или без него. Задачи, которые мы надеемся решить: поиск похожих товаров, поиск сопутствующих товаров, анализ комментариев к товарам (чтобы понимать что в нём плохого, а что хорошего), анализ логов. Пока часть задач в том или ином виде решена через SQL и SSAS Data Mining. Чего хочется от hadoop - ускорения расчётов, реализации других алгоритмов (сейчас они либо с костылями, либо непрозрачные, в которых мы не знаем что происходит и как выдаётся результат) затея вполне здравая. по мне хадуп это кроме дешевой масштабируемости и возможности уйти в облака еще и набор патернов. т.е. тот кто будет разбираться в вашей системе будет сразу примерно представлять, что и как у вас сделано. чем меньше узлов, тем меньше данные будут гулять по нетворку (пусть и виртуальному), так что выгодней 4 узла. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.06.2017, 08:05 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Yo.!Max_11111Пока задача стоит - разобраться что из себя представляет hadoop и как с ним работать. с R или без него. Задачи, которые мы надеемся решить: поиск похожих товаров, поиск сопутствующих товаров, анализ комментариев к товарам (чтобы понимать что в нём плохого, а что хорошего), анализ логов. Пока часть задач в том или ином виде решена через SQL и SSAS Data Mining. Чего хочется от hadoop - ускорения расчётов, реализации других алгоритмов (сейчас они либо с костылями, либо непрозрачные, в которых мы не знаем что происходит и как выдаётся результат) затея вполне здравая. по мне хадуп это кроме дешевой масштабируемости и возможности уйти в облака еще и набор патернов. т.е. тот кто будет разбираться в вашей системе будет сразу примерно представлять, что и как у вас сделано. чем меньше узлов, тем меньше данные будут гулять по нетворку (пусть и виртуальному), так что выгодней 4 узла. 1. Hadoop это история не про ускорение расчетов, а про горизонтальную масштабируемость, экономичность и отчасти - неструктурированные данные. На объемах данных, которые можно впихнуть в low-level (как у автора топика) или midrange машину (что-то типа ~ несколько десятков ядер, до терабайта оперативы, несколько десятков терабайт дискового пространства за 10-20 килобаксов) и данных, которые можно впихнуть в мелкомягкие сиквеля или оракл, оные БД Hadoop рвут как тузик грелку. Не говоря уже о головняке с настройкой Хадупа, обеспечением его стабильности и прочая-прочая. 2. Поднимать виртуалки на одном слабом сервере, чтобы из этих нод сделать хадуп - это изврат, который имеет смысл только, чтобы поиграться с технологией. Но проще тогда в облаке железо арендовать. 3. Связываться с хадупом или нет - зависит от: 3.1. объемов данных, имеющих ценность и пригодных для анализа. Ударение на словах "имеющих ценность и пригодных для анализа", а не на слове "объем". Но при объемах порядка терабайтов в этом нет никакого смысла от слова совсем. 3.2. бюджетов. Кому-то midrange машины - слабое железо, а кому-то 15 килобаксов огромные деньги. Если первое, то и при объемах порядка десятков терабайт в Хадупе нет никакой необходимости, если второе - теоретически может быть смысл. 3.3. структуры данных. Если большая часть данных структурирована - хадуп идет нафиг, если наоборот - привет хадуп. 3.4. задач. R изначально заточен под задачи статистики, многие задачи ML там можно решать, но на Python это делать удобнее. Точно так же, как стат.вычисления удобнее делать в R, хотя Python это тоже позволяет делать. Опять-таки, hadoop сам по себе это история про "одним заходом перелопатить много данных", а это важная история, но далеко не единственная. Плюс даже в крупных компаниях с Python часто работают на локальных нодах кластера, а не распределенно. Потому что большую часть задач так можно сделать, а распределенно машинку в кластере гонять немного ...трудоемко. и т.д. и т.п. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.06.2017, 13:07 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
NePZ1. Hadoop это история не про ускорение расчетов, а про горизонтальную масштабируемость, экономичность и отчасти - неструктурированные данные. На объемах данных, которые можно впихнуть в low-level (как у автора топика) или midrange машину (что-то типа ~ несколько десятков ядер, до терабайта оперативы, несколько десятков терабайт дискового пространства за 10-20 килобаксов) и данных, которые можно впихнуть в мелкомягкие сиквеля или оракл, оные БД Hadoop рвут как тузик грелку. нет. тут история совсем о другом, ускорение же лишь хороший бонус сверху. товарищу нужна рекомендательная система и анализ логов, наверно какие-то системы прогнозирование продаж. в связке с хадуп он просто берет один из миллионов учебников и по шагам клик-клик получает совершенно стандартное решение, которое гарантировано летает. которое следующему воятелю не нужно три года изучать. а что с "мелкомягкие сиквеля или оракл" ? ентерпрайз редакции явно не вариант, а в стандарт, что у одного что у другого нихера нет, даже партишенинга нет. у оракла хотя бы partitioning view как-то может сгладить, у мсскл просто нихера нет. но даже стандарт едишен это многие тысячи, даже ентри левел сервачек это сегодня 20+ ядер и далеко за $10к лицензии мсскл стандард едишена. т.е. это надо платить лицензии + получить субд которая по определению будет из этих 20 ядер насиловать одно ядро, т.к. стандард эдишены вообще не умею параллелить. ну и самое вкусное - изобретать свой уникальный велосипед. что касается скорости, то тоже все немного сложней. на моем домашнем i7 импала в виртуалке (one node cluster, Cloudera QuickStart VM) заметно обгоняет оракл на тяжелых аналитических запросах. и не удивительно, в оракле одна из табличек моих транзакций с занимает 30+ гб (блок 8к, буферный кеш 12гб), а в parquet/gzip формате на hdfs эта же табличка 4.5гб. оракл для джоина четырех табличек вынужден поднять 50+ гб с диска и джоинить в одном потоке. импале для той же работы нужно поднять с hdfs менее 10гб и она это делает в параллель, загружая все ядра. на выходе даже на одном компе в виртуалке импала многие запросы выполняет быстрее, при этом я достаточно разбираюсь в оракле, что бы не ступить с откровенно кривым планом, куцым буферным кешем или недекватным размером блока. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.06.2017, 14:46 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
NePZ, Все верно пишет ... |
|||
:
Нравится:
Не нравится:
|
|||
18.06.2017, 10:12 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
NePZ, Yo.!, Спасибо за ответы. Ваши мнения разделились, и я так и не понял: что будет быстрее работать: кластер hadoop (горизонтальное масштабирование), или одиночный сервер, аналогичный по мощности сумме всех мощностей машин кластера (вертикальное масштабирование)? Точнее даже, наверное, не что быстрее, а начиная с какого объёма данных (например, 100 Гб, 1 Тб, 10 Тб) разница будет ощутимой и в чью пользу? Или опять-же, всё зависит от конкретный задач и алгоритмов? Опять же, возможно проще и быстрее что-то сделать на Microsoft R Server, предварительно разобравшись что, когда и как он распараллеливает ... |
|||
:
Нравится:
Не нравится:
|
|||
19.06.2017, 04:45 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Max_11111что будет быстрее работать: кластер hadoop (горизонтальное масштабирование), или одиночный сервер, аналогичный по мощности сумме всех мощностей машин кластера (вертикальное масштабирование)? Вертикальное масштабирование _всегда_ будет быстрее. На любых объёмах. Суть в том, что начиная с некоторого объёма вертикальное масштабирование стоит дороже по железу. Другое дело, что вертикальное дешевле по трудозатратам на разработку. Как итог- складывая затраты на делезо и на разработку можно увидеть, что с какого-то объёма горизонтальное масштабирование выходит дешевле. С какого объёма- понять очень сложно и сильно зависит от задач. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.06.2017, 09:15 |
|
Установка Hadoop на пользовательские компьютеры
|
|||
---|---|---|---|
#18+
Max_11111Или опять-же, всё зависит от конкретный задач и алгоритмов? все зависит в первую очередь от цены, потом от технологии. в теории ораклы и мсскл отлично масштабируются, но реально уже после десятка ядер entry level сервера цены за лицензии зашкаливают за все разумное. мсскл стандард едишен стоит $6к за ядро, т.е. лицензии на 16 ядер вытянут на $96к. за эти деньги можно построить посерьезней кластер, чем на 16 ядер. заметно серьезней. Microsoft R Server как я понимаю еще одна надстройка на хадуп. чо касается технической стороны, то хадуп будет обгонять на многих задачах даже если сумарно в кластере те же ресурсы что оракла/мсскл. просто потому, что у стандард едишенов нет параллельности, нет партишининга и прочая. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.06.2017, 10:28 |
|
|
start [/forum/topic.php?fid=48&fpage=5&tid=1856684]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
36ms |
get topic data: |
14ms |
get forum data: |
3ms |
get page messages: |
58ms |
get tp. blocked users: |
2ms |
others: | 13ms |
total: | 155ms |
0 / 0 |