|
|
|
map reduce в масштабе все организации
|
|||
|---|---|---|---|
|
#18+
Вопрос в порядке бреда ) Почему-то, когда наши компании внедряют всякие big data и open source-технологии, то обычно это делается на брендованном оборудовании за много-много миллионов. Почему не делают, например, как на рисунке? Смысл в том, чтобы размазать все данные по контейнерам на простых пользовательских машинах, вес которых (для примера) будет определятся по скорости обработки данных. И чем больше вес, тем больше данных туда можно положить/обработать. Распределение данных пусть будет с избыточностью на случай, если часть машин будет отключена по каким-то причинам. Если же будет отключено много машин - расчет сделают map-элементы на схеме (часть неотключаемого ядра). При этом и у нас, и в мире много организаций, где парк ПК составляет несколько десятков тысяч машин... Вкусно же! И самый главный плюс - самоапгрейдящиеся вычислительные элементы ps а может так уже у кого-то реализовано? если да, то поделитесь инфой ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.09.2020, 15:17 |
|
||
|
map reduce в масштабе все организации
|
|||
|---|---|---|---|
|
#18+
Критик, так и встает перед глазами эта эпичная картина - три дня считал скоринг, который можно было за 20 минут посчитать, но поскольку клиенты сидят на еле живом wi-fi, постоянно перегружаются расчет занял 3 дня. всего то на 60 часов позже чем позволяет SLA. но данные блин пропали - на третий день сократили один из отделов и вот ведь непруха, данные легли именно на тот злаполучный. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.09.2020, 16:16 |
|
||
|
map reduce в масштабе все организации
|
|||
|---|---|---|---|
|
#18+
H5N1, Ну что значит "постоянно перегружаются"? Обмен между клиентскими нодами можно построить на чем-то наподобие внутреннего торрент-трекера, будет весьма быстро. И вопрос с распределением данных вполне можно решить. Если же такая неприятность все же случилась, то ваш скоринг просто посчитается на map-узлах за те же условные 20 минут, вместо 20 секунд на клиентских нодах. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.09.2020, 17:28 |
|
||
|
map reduce в масштабе все организации
|
|||
|---|---|---|---|
|
#18+
Критик Ну что значит "постоянно перегружаются"? Обмен между клиентскими нодами можно построить на чем-то наподобие внутреннего торрент-трекера, будет весьма быстро. какая разница что там за протокол поверх wi-fi на соплях ? ну и классический мап-редюс это процессинг запускается на том узле, где данные. ярн смотрит что нода не отвечает, перезапускает задачу маппера или редюсера заново, на ноде, где есть нужные блоки. Критик И вопрос с распределением данных вполне можно решить. можно, но имхо это уже ближе к облакам. компьют нода на ноутбука вытягивает по wi-fi откуда-то данные и начинает считать, но тут чувак пошел на обед и опустил крышку, комп ушел в хибернейт ... Критик Если же такая неприятность все же случилась, то ваш скоринг просто посчитается на map-узлах за те же условные 20 минут, вместо 20 секунд на клиентских нодах. а зачем ? пока там клиенты гоняли по wi-fi эти гигабайты и ярн рестартовал задачи, клиентский комп намотал шифровальщика и часть вычислений превратил уже в кашу. мне кажется индустрия уже что-то такое проходило во времена foxpro. помню старперы вечно бегали по этажам пытаясь понять у кого вирус и кто дописывает мусор в конец dbf файликов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.09.2020, 18:26 |
|
||
|
map reduce в масштабе все организации
|
|||
|---|---|---|---|
|
#18+
Смысл в том, чтобы размазать все данные по контейнерам на простых пользовательских машинахДоступность и сетевая производительность каждого контейнера будет под большим вопросом. А также администрирование. По сабжу: качество бреда отменное. Плюсую... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.09.2020, 09:17 |
|
||
|
map reduce в масштабе все организации
|
|||
|---|---|---|---|
|
#18+
L_argo, Сетевые сбои крайне редки, а если все же происходят, то не будет работать не только то, что нарисовано на картинке, но и все другие системы. Также уже не редки 10-гигабитные сетки. Вопросы доступности узлов решаются многократной избыточностью и неотключаемым ядром. Производительность тоже вопрос решаемый, скажем, выделить каждому контейнеру сколько-то Гб ОЗУ, CPU с самым низким приоритетом и свой nvme-диск. Ведь не секрет, что 95% времени обычные офисные машины просто простаивают и уж точно не утилизируют полностью ресурсы процессора. Почему вообще такая идея возникла - сейчас все идут в сторону удешевления, в том числе и в плане перехода на на дешёвое потребительское оборудование в датацентрах. Так почему бы не сделать нечто вроде SETI@home или ее аналогов для больших корпораций? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.09.2020, 17:03 |
|
||
|
map reduce в масштабе все организации
|
|||
|---|---|---|---|
|
#18+
Критик нечто вроде SETI@home или ее аналогов ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.09.2020, 17:17 |
|
||
|
|

start [/forum/topic.php?fid=49&fpage=7&tid=1857263]: |
0ms |
get settings: |
10ms |
get forum list: |
12ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
53ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
43ms |
get tp. blocked users: |
1ms |
| others: | 258ms |
| total: | 399ms |

| 0 / 0 |
