Установка Hadoop на пользовательские компьютеры / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Установка Hadoop на пользовательские компьютеры

18 сообщений из 18, страница 1 из 1

Установка Hadoop на пользовательские компьютеры

#39468337

Max_11111

Гость

Можно ли развернуть кластер hadoop на компьютерах пользователей?
Например, в офисе работает 100 человек. Днём они работают, а ночью компьютеры просто стоят включёнными. Можно ли создать кластер из этих компьютеров, так чтобы по ночам запускать вычисления?
Делал ли так что-нибудь, или для кластера нужно разворачивать именно отдельные сервера?

...

Рейтинг:

0 / 0

08.06.2017, 09:51

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39468353

Hett

Участник

Откуда: Бийск, Новосибирск

Сообщения: 13 075

Рейтинг: 0 / 0

Принципиально, сервер не отличается от десктопа.

...

Рейтинг:

0 / 0

08.06.2017, 10:12

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39468367

Max_11111

Гость

Ок, спасибо. Ещё несколько вопросов:
1. Hadoop на windows и на linux идентичны в плане функциональности? т.е. есть какие-либо ограничения на windows версии hadoop, которых нет на linux?
2. Может ли часть узлов быть windows, а часть linux? или, например, главный узел на linux, а все data node на windows?
3. Если я не хочу кодить на JAVA, а хочу использовать HIVE и PIG, то нужно ли их устанавливать на каждом узле, или достаточно установить только на главном узле (с которого я буду запускать обработки)?

...

Рейтинг:

0 / 0

08.06.2017, 10:26

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39468647

Дедушка

Участник

Откуда: Город трёх революций

Сообщения: 4 572

Рейтинг: 0 / 0

Max_11111Можно ли развернуть кластер hadoop на компьютерах пользователей?технически возможно, но "дешёвые и простые компы" для кластера это миф (ну только разве, что вы не собираетесь хело-ворд запускать типа подсчёт букв)

...

Рейтинг:

0 / 0

08.06.2017, 14:15

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39468881

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Max_11111Ок, спасибо. Ещё несколько вопросов:
1. Hadoop на windows и на linux идентичны в плане функциональности? т.е. есть какие-либо ограничения на windows версии hadoop, которых нет на linux?

Вроде как сейчас хадуп работает на винде, но таким извращением никто обычно не занимается.

Max_111112. Может ли часть узлов быть windows, а часть linux? или, например, главный узел на linux, а все data node на windows?

Могут быть проблемы даже если диски разного размера. У нас на тестовом кластере было 5 нод у которых у 2х были большие диски, у 3х маленькие. Когда места стало мало- он стал постоянно вставать раком- типа место ещё есть, но сбалансировать объём он никак не мог.

Max_111113. Если я не хочу кодить на JAVA, а хочу использовать HIVE и PIG, то нужно ли их устанавливать на каждом узле, или достаточно установить только на главном узле (с которого я буду запускать обработки)?

Поросёнок запускает обычные m/r задачи. hive вроде тоже. Так что ответ- можно. Наверное.

Но про всю затею в целом- намучаетесь. Хадуп это система из г@вна и палок. Он и так работает нестабильно, если кластер из одинаковых машин с оптикой между ними собирать. А ваш случай- это очень рисковое мероприятие. Мало того, что проблемы будут, так ещё их решать будет сложно даже опытному погонщику слоников, а Вы, как я понимаю, новичёк.
Арендуйте в облаке каком-нибудь машины- будет всё работать нормально.

...

Рейтинг:

0 / 0

08.06.2017, 16:48

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39470308

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

Alexey TominАрендуйте в облаке каком-нибудь машины- будет всё работать нормально.

так суть предложения автора топика в экономии, а вы предлагаете тратить

...

Рейтинг:

0 / 0

11.06.2017, 19:45

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39470674

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

КритикAlexey TominАрендуйте в облаке каком-нибудь машины- будет всё работать нормально.

так суть предложения автора топика в экономии, а вы предлагаете тратить

Такая экономия дорого выйдет.

...

Рейтинг:

0 / 0

13.06.2017, 07:27

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39471420

Max_11111

Гость

В общем решили пока в Azure поизучать hadoop, у них вроде всё необходимое есть. + даётся подписка на месяц для тестирования любых служб. потом решим уже: арендовать мощности в облаках, или самим собирать кластер.
Посмотрев конфигурации узлов в Azure закрались сомнения в том есть ли вообще смысл на пользовательских компьютерах пытаться построить кластер - мощности в среднем различаются в несколько раз.
Возник такой вопрос:
допустим у меня есть сервер (проц - 16 ядер, оперативка - 192 Гб). Есть 3 варианта его использования
1- hadoop кластер из 4 узлов, где у каждого узла доступно: 4 ядра, 48 оперативы
2- hadoop кластер из 8 узлов, где у каждого узла доступно: 2 ядра, 24 оперативы
3- 1 SQL сервер 2017 и произвожу вычисления на SQL + R (Microsoft распараллелил R)
Будет ли профит от кластера hadoop, состоящего из виртуалок, развёрнутых на одном сервере, по сравнению с использованием самого сервера? Если да, то выигрыш в производительности будет заметным, или минимальным? И какие узлы лучше делать: много слабых, или мало но мощных (например 1 или 2 варианты лучше?)?

...

Рейтинг:

0 / 0

14.06.2017, 12:01

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39471698

Дедушка

Участник

Откуда: Город трёх революций

Сообщения: 4 572

Рейтинг: 0 / 0

Max_11111,

использование хадупа для увеличения производительности "расчётов" (типа распараллелим на много нод - посчитается быстрее) это такой же миф как и "можно собрать хадуп на дешёвых и слабых узлах"

R и хадуп ортогональны друг другу, вы озвучьте задачу которую пытаетесь решить
(с "распараллеливанием" R тож не всё однозначно)
Max_11111И какие узлы лучше делать: много слабых, или мало но мощныхдля узлов нужны мощные сервера выше уже отвечал.

...

Рейтинг:

0 / 0

14.06.2017, 18:34

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39471847

Max_11111

Гость

Дедушка,

Пока задача стоит - разобраться что из себя представляет hadoop и как с ним работать. с R или без него.
Задачи, которые мы надеемся решить: поиск похожих товаров, поиск сопутствующих товаров, анализ комментариев к товарам (чтобы понимать что в нём плохого, а что хорошего), анализ логов. Пока часть задач в том или ином виде решена через SQL и SSAS Data Mining.
Чего хочется от hadoop - ускорения расчётов, реализации других алгоритмов (сейчас они либо с костылями, либо непрозрачные, в которых мы не знаем что происходит и как выдаётся результат)

...

Рейтинг:

0 / 0

15.06.2017, 03:44

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39471874

Yo.!

Гость

Max_11111Пока задача стоит - разобраться что из себя представляет hadoop и как с ним работать. с R или без него.
Задачи, которые мы надеемся решить: поиск похожих товаров, поиск сопутствующих товаров, анализ комментариев к товарам (чтобы понимать что в нём плохого, а что хорошего), анализ логов. Пока часть задач в том или ином виде решена через SQL и SSAS Data Mining.
Чего хочется от hadoop - ускорения расчётов, реализации других алгоритмов (сейчас они либо с костылями, либо непрозрачные, в которых мы не знаем что происходит и как выдаётся результат)
затея вполне здравая. по мне хадуп это кроме дешевой масштабируемости и возможности уйти в облака еще и набор патернов. т.е. тот кто будет разбираться в вашей системе будет сразу примерно представлять, что и как у вас сделано.
чем меньше узлов, тем меньше данные будут гулять по нетворку (пусть и виртуальному), так что выгодней 4 узла.

...

Рейтинг:

0 / 0

15.06.2017, 08:05

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39473583

NePZ

Участник

Сообщения: 64

Рейтинг: 0 / 0

Yo.!Max_11111Пока задача стоит - разобраться что из себя представляет hadoop и как с ним работать. с R или без него.
Задачи, которые мы надеемся решить: поиск похожих товаров, поиск сопутствующих товаров, анализ комментариев к товарам (чтобы понимать что в нём плохого, а что хорошего), анализ логов. Пока часть задач в том или ином виде решена через SQL и SSAS Data Mining.
Чего хочется от hadoop - ускорения расчётов, реализации других алгоритмов (сейчас они либо с костылями, либо непрозрачные, в которых мы не знаем что происходит и как выдаётся результат)
затея вполне здравая. по мне хадуп это кроме дешевой масштабируемости и возможности уйти в облака еще и набор патернов. т.е. тот кто будет разбираться в вашей системе будет сразу примерно представлять, что и как у вас сделано.
чем меньше узлов, тем меньше данные будут гулять по нетворку (пусть и виртуальному), так что выгодней 4 узла.

1. Hadoop это история не про ускорение расчетов, а про горизонтальную масштабируемость, экономичность и отчасти - неструктурированные данные. На объемах данных, которые можно впихнуть в low-level (как у автора топика) или midrange машину (что-то типа ~ несколько десятков ядер, до терабайта оперативы, несколько десятков терабайт дискового пространства за 10-20 килобаксов) и данных, которые можно впихнуть в мелкомягкие сиквеля или оракл, оные БД Hadoop рвут как тузик грелку. Не говоря уже о головняке с настройкой Хадупа, обеспечением его стабильности и прочая-прочая.

2. Поднимать виртуалки на одном слабом сервере, чтобы из этих нод сделать хадуп - это изврат, который имеет смысл только, чтобы поиграться с технологией. Но проще тогда в облаке железо арендовать.

3. Связываться с хадупом или нет - зависит от:
3.1. объемов данных, имеющих ценность и пригодных для анализа. Ударение на словах "имеющих ценность и пригодных для анализа", а не на слове "объем". Но при объемах порядка терабайтов в этом нет никакого смысла от слова совсем.
3.2. бюджетов. Кому-то midrange машины - слабое железо, а кому-то 15 килобаксов огромные деньги. Если первое, то и при объемах порядка десятков терабайт в Хадупе нет никакой необходимости, если второе - теоретически может быть смысл.
3.3. структуры данных. Если большая часть данных структурирована - хадуп идет нафиг, если наоборот - привет хадуп.
3.4. задач. R изначально заточен под задачи статистики, многие задачи ML там можно решать, но на Python это делать удобнее. Точно так же, как стат.вычисления удобнее делать в R, хотя Python это тоже позволяет делать.
Опять-таки, hadoop сам по себе это история про "одним заходом перелопатить много данных", а это важная история, но далеко не единственная. Плюс даже в крупных компаниях с Python часто работают на локальных нодах кластера, а не распределенно. Потому что большую часть задач так можно сделать, а распределенно машинку в кластере гонять немного ...трудоемко.
и т.д. и т.п.

...

Рейтинг:

0 / 0

17.06.2017, 13:07

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39473597

Yo.!

Гость

NePZ1. Hadoop это история не про ускорение расчетов, а про горизонтальную масштабируемость, экономичность и отчасти - неструктурированные данные. На объемах данных, которые можно впихнуть в low-level (как у автора топика) или midrange машину (что-то типа ~ несколько десятков ядер, до терабайта оперативы, несколько десятков терабайт дискового пространства за 10-20 килобаксов) и данных, которые можно впихнуть в мелкомягкие сиквеля или оракл, оные БД Hadoop рвут как тузик грелку.

нет. тут история совсем о другом, ускорение же лишь хороший бонус сверху.
товарищу нужна рекомендательная система и анализ логов, наверно какие-то системы прогнозирование продаж. в связке с хадуп он просто берет один из миллионов учебников и по шагам клик-клик получает совершенно стандартное решение, которое гарантировано летает. которое следующему воятелю не нужно три года изучать.
а что с "мелкомягкие сиквеля или оракл" ? ентерпрайз редакции явно не вариант, а в стандарт, что у одного что у другого нихера нет, даже партишенинга нет. у оракла хотя бы partitioning view как-то может сгладить, у мсскл просто нихера нет. но даже стандарт едишен это многие тысячи, даже ентри левел сервачек это сегодня 20+ ядер и далеко за $10к лицензии мсскл стандард едишена. т.е. это надо платить лицензии + получить субд которая по определению будет из этих 20 ядер насиловать одно ядро, т.к. стандард эдишены вообще не умею параллелить. ну и самое вкусное - изобретать свой уникальный велосипед.

что касается скорости, то тоже все немного сложней. на моем домашнем i7 импала в виртуалке (one node cluster, Cloudera QuickStart VM) заметно обгоняет оракл на тяжелых аналитических запросах. и не удивительно, в оракле одна из табличек моих транзакций с занимает 30+ гб (блок 8к, буферный кеш 12гб), а в parquet/gzip формате на hdfs эта же табличка 4.5гб. оракл для джоина четырех табличек вынужден поднять 50+ гб с диска и джоинить в одном потоке. импале для той же работы нужно поднять с hdfs менее 10гб и она это делает в параллель, загружая все ядра. на выходе даже на одном компе в виртуалке импала многие запросы выполняет быстрее, при этом я достаточно разбираюсь в оракле, что бы не ступить с откровенно кривым планом, куцым буферным кешем или недекватным размером блока.

...

Рейтинг:

0 / 0

17.06.2017, 14:46

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39473751

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

NePZ,

Все верно пишет

...

Рейтинг:

0 / 0

18.06.2017, 10:12

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39473892

Max_11111

Гость

NePZ,
Yo.!,

Спасибо за ответы.
Ваши мнения разделились, и я так и не понял:
что будет быстрее работать: кластер hadoop (горизонтальное масштабирование), или одиночный сервер, аналогичный по мощности сумме всех мощностей машин кластера (вертикальное масштабирование)? Точнее даже, наверное, не что быстрее, а начиная с какого объёма данных (например, 100 Гб, 1 Тб, 10 Тб) разница будет ощутимой и в чью пользу?
Или опять-же, всё зависит от конкретный задач и алгоритмов?
Опять же, возможно проще и быстрее что-то сделать на Microsoft R Server, предварительно разобравшись что, когда и как он распараллеливает

...

Рейтинг:

0 / 0

19.06.2017, 04:45

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39473927

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Max_11111что будет быстрее работать: кластер hadoop (горизонтальное масштабирование), или одиночный сервер, аналогичный по мощности сумме всех мощностей машин кластера (вертикальное масштабирование)?

Вертикальное масштабирование _всегда_ будет быстрее. На любых объёмах.

Суть в том, что начиная с некоторого объёма вертикальное масштабирование стоит дороже по железу.
Другое дело, что вертикальное дешевле по трудозатратам на разработку.
Как итог- складывая затраты на делезо и на разработку можно увидеть, что с какого-то объёма горизонтальное масштабирование выходит дешевле. С какого объёма- понять очень сложно и сильно зависит от задач.

...

Рейтинг:

0 / 0

19.06.2017, 09:15

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39473973

Yo.!

Гость

Max_11111Или опять-же, всё зависит от конкретный задач и алгоритмов?

все зависит в первую очередь от цены, потом от технологии. в теории ораклы и мсскл отлично масштабируются, но реально уже после десятка ядер entry level сервера цены за лицензии зашкаливают за все разумное. мсскл стандард едишен стоит $6к за ядро, т.е. лицензии на 16 ядер вытянут на $96к. за эти деньги можно построить посерьезней кластер, чем на 16 ядер. заметно серьезней.
Microsoft R Server как я понимаю еще одна надстройка на хадуп.
чо касается технической стороны, то хадуп будет обгонять на многих задачах даже если сумарно в кластере те же ресурсы что оракла/мсскл. просто потому, что у стандард едишенов нет параллельности, нет партишининга и прочая.

...

Рейтинг:

0 / 0

19.06.2017, 10:28

| Ответить | Цитировать | Написать

Установка Hadoop на пользовательские компьютеры

#39474503

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

Yo.!,

видно, что с MS SQL Server вы знакомы весьма поверхностно

...

Рейтинг:

0 / 0

19.06.2017, 23:46

| Ответить | Цитировать | Написать

18 сообщений из 18, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Установка Hadoop на пользовательские компьютеры

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&fpage=5&tid=1856684]:	0ms
get settings:	10ms
get forum list:	13ms
check forum access:	4ms
check topic access:	4ms
track hit:	59ms
get topic data:	13ms
get forum data:	3ms
get page messages:	85ms
get tp. blocked users:	3ms
others:	14ms

total:	208ms