map reduce в масштабе все организации / OLAP и DWH

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / map reduce в масштабе все организации

7 сообщений из 7, страница 1 из 1

map reduce в масштабе все организации

#39996965

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

Вопрос в порядке бреда )
Почему-то, когда наши компании внедряют всякие big data и open source-технологии, то обычно это делается на брендованном оборудовании за много-много миллионов. Почему не делают, например, как на рисунке?

Смысл в том, чтобы размазать все данные по контейнерам на простых пользовательских машинах, вес которых (для примера) будет определятся по скорости обработки данных. И чем больше вес, тем больше данных туда можно положить/обработать. Распределение данных пусть будет с избыточностью на случай, если часть машин будет отключена по каким-то причинам. Если же будет отключено много машин - расчет сделают map-элементы на схеме (часть неотключаемого ядра).

При этом и у нас, и в мире много организаций, где парк ПК составляет несколько десятков тысяч машин... Вкусно же!
И самый главный плюс - самоапгрейдящиеся вычислительные элементы

ps а может так уже у кого-то реализовано? если да, то поделитесь инфой

...

Рейтинг:

0 / 0

09.09.2020, 15:17

| Ответить | Цитировать | Написать

map reduce в масштабе все организации

#39996986

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Критик,

так и встает перед глазами эта эпичная картина - три дня считал скоринг, который можно было за 20 минут посчитать, но поскольку клиенты сидят на еле живом wi-fi, постоянно перегружаются расчет занял 3 дня. всего то на 60 часов позже чем позволяет SLA. но данные блин пропали - на третий день сократили один из отделов и вот ведь непруха, данные легли именно на тот злаполучный.

...

Рейтинг:

0 / 0

09.09.2020, 16:16

| Ответить | Цитировать | Написать

map reduce в масштабе все организации

#39996999

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

H5N1,

Ну что значит "постоянно перегружаются"? Обмен между клиентскими нодами можно построить на чем-то наподобие внутреннего торрент-трекера, будет весьма быстро.

И вопрос с распределением данных вполне можно решить.

Если же такая неприятность все же случилась, то ваш скоринг просто посчитается на map-узлах за те же условные 20 минут, вместо 20 секунд на клиентских нодах.

...

Рейтинг:

0 / 0

09.09.2020, 17:28

| Ответить | Цитировать | Написать

map reduce в масштабе все организации

#39997020

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Критик

Ну что значит "постоянно перегружаются"? Обмен между клиентскими нодами можно построить на чем-то наподобие внутреннего торрент-трекера, будет весьма быстро.

какая разница что там за протокол поверх wi-fi на соплях ? ну и классический мап-редюс это процессинг запускается на том узле, где данные. ярн смотрит что нода не отвечает, перезапускает задачу маппера или редюсера заново, на ноде, где есть нужные блоки.

Критик

И вопрос с распределением данных вполне можно решить.

можно, но имхо это уже ближе к облакам. компьют нода на ноутбука вытягивает по wi-fi откуда-то данные и начинает считать, но тут чувак пошел на обед и опустил крышку, комп ушел в хибернейт ...

Критик

Если же такая неприятность все же случилась, то ваш скоринг просто посчитается на map-узлах за те же условные 20 минут, вместо 20 секунд на клиентских нодах.

а зачем ? пока там клиенты гоняли по wi-fi эти гигабайты и ярн рестартовал задачи, клиентский комп намотал шифровальщика и часть вычислений превратил уже в кашу.
мне кажется индустрия уже что-то такое проходило во времена foxpro. помню старперы вечно бегали по этажам пытаясь понять у кого вирус и кто дописывает мусор в конец dbf файликов.

...

Рейтинг:

0 / 0

09.09.2020, 18:26

| Ответить | Цитировать | Написать

map reduce в масштабе все организации

#39997161

L_argo

Участник

Сообщения: 1 497

Рейтинг: 0 / 0

Смысл в том, чтобы размазать все данные по контейнерам на простых пользовательских машинахДоступность и сетевая производительность каждого контейнера будет под большим вопросом. А также администрирование.

По сабжу: качество бреда отменное. Плюсую...

...

Рейтинг:

0 / 0

10.09.2020, 09:17

| Ответить | Цитировать | Написать

map reduce в масштабе все организации

#39997399

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

L_argo,

Сетевые сбои крайне редки, а если все же происходят, то не будет работать не только то, что нарисовано на картинке, но и все другие системы. Также уже не редки 10-гигабитные сетки. Вопросы доступности узлов решаются многократной избыточностью и неотключаемым ядром.

Производительность тоже вопрос решаемый, скажем, выделить каждому контейнеру сколько-то Гб ОЗУ, CPU с самым низким приоритетом и свой nvme-диск. Ведь не секрет, что 95% времени обычные офисные машины просто простаивают и уж точно не утилизируют полностью ресурсы процессора.

Почему вообще такая идея возникла - сейчас все идут в сторону удешевления, в том числе и в плане перехода на на дешёвое потребительское оборудование в датацентрах. Так почему бы не сделать нечто вроде SETI@home или ее аналогов для больших корпораций?

...

Рейтинг:

0 / 0

10.09.2020, 17:03

| Ответить | Цитировать | Написать

map reduce в масштабе все организации

#39997404

.Евгений

Участник

Сообщения: 385

Рейтинг: 0 / 0

Критик

нечто вроде SETI@home или ее аналогов

Архитектура подобных распределенных вычислений намного проще и представляет собой несколько очередей заданий и результатов между сервером и клиентами. Нет никаких весов, размазываний, распределений и сборок.

...

Рейтинг:

0 / 0

10.09.2020, 17:17

| Ответить | Цитировать | Написать

7 сообщений из 7, страница 1 из 1

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / map reduce в масштабе все организации

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=49&fpage=7&tid=1857263]:	0ms
get settings:	10ms
get forum list:	12ms
check forum access:	4ms
check topic access:	4ms
track hit:	53ms
get topic data:	12ms
get forum data:	2ms
get page messages:	43ms
get tp. blocked users:	1ms
others:	258ms

total:	399ms