powered by simpleCommunicator - 2.0.53     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Установка Hadoop на пользовательские компьютеры
18 сообщений из 18, страница 1 из 1
Установка Hadoop на пользовательские компьютеры
    #39468337
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Можно ли развернуть кластер hadoop на компьютерах пользователей?
Например, в офисе работает 100 человек. Днём они работают, а ночью компьютеры просто стоят включёнными. Можно ли создать кластер из этих компьютеров, так чтобы по ночам запускать вычисления?
Делал ли так что-нибудь, или для кластера нужно разворачивать именно отдельные сервера?
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39468353
Фотография Hett
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Принципиально, сервер не отличается от десктопа.
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39468367
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ок, спасибо. Ещё несколько вопросов:
1. Hadoop на windows и на linux идентичны в плане функциональности? т.е. есть какие-либо ограничения на windows версии hadoop, которых нет на linux?
2. Может ли часть узлов быть windows, а часть linux? или, например, главный узел на linux, а все data node на windows?
3. Если я не хочу кодить на JAVA, а хочу использовать HIVE и PIG, то нужно ли их устанавливать на каждом узле, или достаточно установить только на главном узле (с которого я буду запускать обработки)?
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39468647
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Max_11111Можно ли развернуть кластер hadoop на компьютерах пользователей?технически возможно, но "дешёвые и простые компы" для кластера это миф (ну только разве, что вы не собираетесь хело-ворд запускать типа подсчёт букв)
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39468881
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Max_11111Ок, спасибо. Ещё несколько вопросов:
1. Hadoop на windows и на linux идентичны в плане функциональности? т.е. есть какие-либо ограничения на windows версии hadoop, которых нет на linux?

Вроде как сейчас хадуп работает на винде, но таким извращением никто обычно не занимается.

Max_111112. Может ли часть узлов быть windows, а часть linux? или, например, главный узел на linux, а все data node на windows?

Могут быть проблемы даже если диски разного размера. У нас на тестовом кластере было 5 нод у которых у 2х были большие диски, у 3х маленькие. Когда места стало мало- он стал постоянно вставать раком- типа место ещё есть, но сбалансировать объём он никак не мог.

Max_111113. Если я не хочу кодить на JAVA, а хочу использовать HIVE и PIG, то нужно ли их устанавливать на каждом узле, или достаточно установить только на главном узле (с которого я буду запускать обработки)?

Поросёнок запускает обычные m/r задачи. hive вроде тоже. Так что ответ- можно. Наверное.

Но про всю затею в целом- намучаетесь. Хадуп это система из г@вна и палок. Он и так работает нестабильно, если кластер из одинаковых машин с оптикой между ними собирать. А ваш случай- это очень рисковое мероприятие. Мало того, что проблемы будут, так ещё их решать будет сложно даже опытному погонщику слоников, а Вы, как я понимаю, новичёк.
Арендуйте в облаке каком-нибудь машины- будет всё работать нормально.
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39470308
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominАрендуйте в облаке каком-нибудь машины- будет всё работать нормально.

так суть предложения автора топика в экономии, а вы предлагаете тратить
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39470674
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
КритикAlexey TominАрендуйте в облаке каком-нибудь машины- будет всё работать нормально.

так суть предложения автора топика в экономии, а вы предлагаете тратить

Такая экономия дорого выйдет.
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39471420
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В общем решили пока в Azure поизучать hadoop, у них вроде всё необходимое есть. + даётся подписка на месяц для тестирования любых служб. потом решим уже: арендовать мощности в облаках, или самим собирать кластер.
Посмотрев конфигурации узлов в Azure закрались сомнения в том есть ли вообще смысл на пользовательских компьютерах пытаться построить кластер - мощности в среднем различаются в несколько раз.
Возник такой вопрос:
допустим у меня есть сервер (проц - 16 ядер, оперативка - 192 Гб). Есть 3 варианта его использования
1- hadoop кластер из 4 узлов, где у каждого узла доступно: 4 ядра, 48 оперативы
2- hadoop кластер из 8 узлов, где у каждого узла доступно: 2 ядра, 24 оперативы
3- 1 SQL сервер 2017 и произвожу вычисления на SQL + R (Microsoft распараллелил R)
Будет ли профит от кластера hadoop, состоящего из виртуалок, развёрнутых на одном сервере, по сравнению с использованием самого сервера? Если да, то выигрыш в производительности будет заметным, или минимальным? И какие узлы лучше делать: много слабых, или мало но мощных (например 1 или 2 варианты лучше?)?
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39471698
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Max_11111,

использование хадупа для увеличения производительности "расчётов" (типа распараллелим на много нод - посчитается быстрее) это такой же миф как и "можно собрать хадуп на дешёвых и слабых узлах"

R и хадуп ортогональны друг другу, вы озвучьте задачу которую пытаетесь решить
(с "распараллеливанием" R тож не всё однозначно)
Max_11111И какие узлы лучше делать: много слабых, или мало но мощныхдля узлов нужны мощные сервера выше уже отвечал.
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39471847
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Дедушка,

Пока задача стоит - разобраться что из себя представляет hadoop и как с ним работать. с R или без него.
Задачи, которые мы надеемся решить: поиск похожих товаров, поиск сопутствующих товаров, анализ комментариев к товарам (чтобы понимать что в нём плохого, а что хорошего), анализ логов. Пока часть задач в том или ином виде решена через SQL и SSAS Data Mining.
Чего хочется от hadoop - ускорения расчётов, реализации других алгоритмов (сейчас они либо с костылями, либо непрозрачные, в которых мы не знаем что происходит и как выдаётся результат)
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39471874
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Max_11111Пока задача стоит - разобраться что из себя представляет hadoop и как с ним работать. с R или без него.
Задачи, которые мы надеемся решить: поиск похожих товаров, поиск сопутствующих товаров, анализ комментариев к товарам (чтобы понимать что в нём плохого, а что хорошего), анализ логов. Пока часть задач в том или ином виде решена через SQL и SSAS Data Mining.
Чего хочется от hadoop - ускорения расчётов, реализации других алгоритмов (сейчас они либо с костылями, либо непрозрачные, в которых мы не знаем что происходит и как выдаётся результат)
затея вполне здравая. по мне хадуп это кроме дешевой масштабируемости и возможности уйти в облака еще и набор патернов. т.е. тот кто будет разбираться в вашей системе будет сразу примерно представлять, что и как у вас сделано.
чем меньше узлов, тем меньше данные будут гулять по нетворку (пусть и виртуальному), так что выгодней 4 узла.
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39473583
NePZ
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Yo.!Max_11111Пока задача стоит - разобраться что из себя представляет hadoop и как с ним работать. с R или без него.
Задачи, которые мы надеемся решить: поиск похожих товаров, поиск сопутствующих товаров, анализ комментариев к товарам (чтобы понимать что в нём плохого, а что хорошего), анализ логов. Пока часть задач в том или ином виде решена через SQL и SSAS Data Mining.
Чего хочется от hadoop - ускорения расчётов, реализации других алгоритмов (сейчас они либо с костылями, либо непрозрачные, в которых мы не знаем что происходит и как выдаётся результат)
затея вполне здравая. по мне хадуп это кроме дешевой масштабируемости и возможности уйти в облака еще и набор патернов. т.е. тот кто будет разбираться в вашей системе будет сразу примерно представлять, что и как у вас сделано.
чем меньше узлов, тем меньше данные будут гулять по нетворку (пусть и виртуальному), так что выгодней 4 узла.

1. Hadoop это история не про ускорение расчетов, а про горизонтальную масштабируемость, экономичность и отчасти - неструктурированные данные. На объемах данных, которые можно впихнуть в low-level (как у автора топика) или midrange машину (что-то типа ~ несколько десятков ядер, до терабайта оперативы, несколько десятков терабайт дискового пространства за 10-20 килобаксов) и данных, которые можно впихнуть в мелкомягкие сиквеля или оракл, оные БД Hadoop рвут как тузик грелку. Не говоря уже о головняке с настройкой Хадупа, обеспечением его стабильности и прочая-прочая.

2. Поднимать виртуалки на одном слабом сервере, чтобы из этих нод сделать хадуп - это изврат, который имеет смысл только, чтобы поиграться с технологией. Но проще тогда в облаке железо арендовать.

3. Связываться с хадупом или нет - зависит от:
3.1. объемов данных, имеющих ценность и пригодных для анализа. Ударение на словах "имеющих ценность и пригодных для анализа", а не на слове "объем". Но при объемах порядка терабайтов в этом нет никакого смысла от слова совсем.
3.2. бюджетов. Кому-то midrange машины - слабое железо, а кому-то 15 килобаксов огромные деньги. Если первое, то и при объемах порядка десятков терабайт в Хадупе нет никакой необходимости, если второе - теоретически может быть смысл.
3.3. структуры данных. Если большая часть данных структурирована - хадуп идет нафиг, если наоборот - привет хадуп.
3.4. задач. R изначально заточен под задачи статистики, многие задачи ML там можно решать, но на Python это делать удобнее. Точно так же, как стат.вычисления удобнее делать в R, хотя Python это тоже позволяет делать.
Опять-таки, hadoop сам по себе это история про "одним заходом перелопатить много данных", а это важная история, но далеко не единственная. Плюс даже в крупных компаниях с Python часто работают на локальных нодах кластера, а не распределенно. Потому что большую часть задач так можно сделать, а распределенно машинку в кластере гонять немного ...трудоемко.
и т.д. и т.п.
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39473597
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
NePZ1. Hadoop это история не про ускорение расчетов, а про горизонтальную масштабируемость, экономичность и отчасти - неструктурированные данные. На объемах данных, которые можно впихнуть в low-level (как у автора топика) или midrange машину (что-то типа ~ несколько десятков ядер, до терабайта оперативы, несколько десятков терабайт дискового пространства за 10-20 килобаксов) и данных, которые можно впихнуть в мелкомягкие сиквеля или оракл, оные БД Hadoop рвут как тузик грелку.

нет. тут история совсем о другом, ускорение же лишь хороший бонус сверху.
товарищу нужна рекомендательная система и анализ логов, наверно какие-то системы прогнозирование продаж. в связке с хадуп он просто берет один из миллионов учебников и по шагам клик-клик получает совершенно стандартное решение, которое гарантировано летает. которое следующему воятелю не нужно три года изучать.
а что с "мелкомягкие сиквеля или оракл" ? ентерпрайз редакции явно не вариант, а в стандарт, что у одного что у другого нихера нет, даже партишенинга нет. у оракла хотя бы partitioning view как-то может сгладить, у мсскл просто нихера нет. но даже стандарт едишен это многие тысячи, даже ентри левел сервачек это сегодня 20+ ядер и далеко за $10к лицензии мсскл стандард едишена. т.е. это надо платить лицензии + получить субд которая по определению будет из этих 20 ядер насиловать одно ядро, т.к. стандард эдишены вообще не умею параллелить. ну и самое вкусное - изобретать свой уникальный велосипед.

что касается скорости, то тоже все немного сложней. на моем домашнем i7 импала в виртуалке (one node cluster, Cloudera QuickStart VM) заметно обгоняет оракл на тяжелых аналитических запросах. и не удивительно, в оракле одна из табличек моих транзакций с занимает 30+ гб (блок 8к, буферный кеш 12гб), а в parquet/gzip формате на hdfs эта же табличка 4.5гб. оракл для джоина четырех табличек вынужден поднять 50+ гб с диска и джоинить в одном потоке. импале для той же работы нужно поднять с hdfs менее 10гб и она это делает в параллель, загружая все ядра. на выходе даже на одном компе в виртуалке импала многие запросы выполняет быстрее, при этом я достаточно разбираюсь в оракле, что бы не ступить с откровенно кривым планом, куцым буферным кешем или недекватным размером блока.
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39473751
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
NePZ,

Все верно пишет
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39473892
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
NePZ,
Yo.!,

Спасибо за ответы.
Ваши мнения разделились, и я так и не понял:
что будет быстрее работать: кластер hadoop (горизонтальное масштабирование), или одиночный сервер, аналогичный по мощности сумме всех мощностей машин кластера (вертикальное масштабирование)? Точнее даже, наверное, не что быстрее, а начиная с какого объёма данных (например, 100 Гб, 1 Тб, 10 Тб) разница будет ощутимой и в чью пользу?
Или опять-же, всё зависит от конкретный задач и алгоритмов?
Опять же, возможно проще и быстрее что-то сделать на Microsoft R Server, предварительно разобравшись что, когда и как он распараллеливает
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39473927
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Max_11111что будет быстрее работать: кластер hadoop (горизонтальное масштабирование), или одиночный сервер, аналогичный по мощности сумме всех мощностей машин кластера (вертикальное масштабирование)?

Вертикальное масштабирование _всегда_ будет быстрее. На любых объёмах.

Суть в том, что начиная с некоторого объёма вертикальное масштабирование стоит дороже по железу.
Другое дело, что вертикальное дешевле по трудозатратам на разработку.
Как итог- складывая затраты на делезо и на разработку можно увидеть, что с какого-то объёма горизонтальное масштабирование выходит дешевле. С какого объёма- понять очень сложно и сильно зависит от задач.
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39473973
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Max_11111Или опять-же, всё зависит от конкретный задач и алгоритмов?

все зависит в первую очередь от цены, потом от технологии. в теории ораклы и мсскл отлично масштабируются, но реально уже после десятка ядер entry level сервера цены за лицензии зашкаливают за все разумное. мсскл стандард едишен стоит $6к за ядро, т.е. лицензии на 16 ядер вытянут на $96к. за эти деньги можно построить посерьезней кластер, чем на 16 ядер. заметно серьезней.
Microsoft R Server как я понимаю еще одна надстройка на хадуп.
чо касается технической стороны, то хадуп будет обгонять на многих задачах даже если сумарно в кластере те же ресурсы что оракла/мсскл. просто потому, что у стандард едишенов нет параллельности, нет партишининга и прочая.
...
Рейтинг: 0 / 0
Установка Hadoop на пользовательские компьютеры
    #39474503
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Yo.!,

видно, что с MS SQL Server вы знакомы весьма поверхностно
...
Рейтинг: 0 / 0
18 сообщений из 18, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Установка Hadoop на пользовательские компьютеры
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]