| 
 | 
| 
 
map reduce в масштабе все организации 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Вопрос в порядке бреда ) Почему-то, когда наши компании внедряют всякие big data и open source-технологии, то обычно это делается на брендованном оборудовании за много-много миллионов. Почему не делают, например, как на рисунке? Смысл в том, чтобы размазать все данные по контейнерам на простых пользовательских машинах, вес которых (для примера) будет определятся по скорости обработки данных. И чем больше вес, тем больше данных туда можно положить/обработать. Распределение данных пусть будет с избыточностью на случай, если часть машин будет отключена по каким-то причинам. Если же будет отключено много машин - расчет сделают map-элементы на схеме (часть неотключаемого ядра). При этом и у нас, и в мире много организаций, где парк ПК составляет несколько десятков тысяч машин... Вкусно же! И самый главный плюс - самоапгрейдящиеся вычислительные элементы ps а может так уже у кого-то реализовано? если да, то поделитесь инфой ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 09.09.2020, 15:17 | 
  
  
  
   | 
||
| 
 
map reduce в масштабе все организации 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Критик, так и встает перед глазами эта эпичная картина - три дня считал скоринг, который можно было за 20 минут посчитать, но поскольку клиенты сидят на еле живом wi-fi, постоянно перегружаются расчет занял 3 дня. всего то на 60 часов позже чем позволяет SLA. но данные блин пропали - на третий день сократили один из отделов и вот ведь непруха, данные легли именно на тот злаполучный. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 09.09.2020, 16:16 | 
  
  
  
   | 
||
| 
 
map reduce в масштабе все организации 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  H5N1, Ну что значит "постоянно перегружаются"? Обмен между клиентскими нодами можно построить на чем-то наподобие внутреннего торрент-трекера, будет весьма быстро. И вопрос с распределением данных вполне можно решить. Если же такая неприятность все же случилась, то ваш скоринг просто посчитается на map-узлах за те же условные 20 минут, вместо 20 секунд на клиентских нодах. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 09.09.2020, 17:28 | 
  
  
  
   | 
||
| 
 
map reduce в масштабе все организации 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Критик Ну что значит "постоянно перегружаются"? Обмен между клиентскими нодами можно построить на чем-то наподобие внутреннего торрент-трекера, будет весьма быстро. какая разница что там за протокол поверх wi-fi на соплях ? ну и классический мап-редюс это процессинг запускается на том узле, где данные. ярн смотрит что нода не отвечает, перезапускает задачу маппера или редюсера заново, на ноде, где есть нужные блоки. Критик И вопрос с распределением данных вполне можно решить. можно, но имхо это уже ближе к облакам. компьют нода на ноутбука вытягивает по wi-fi откуда-то данные и начинает считать, но тут чувак пошел на обед и опустил крышку, комп ушел в хибернейт ... Критик Если же такая неприятность все же случилась, то ваш скоринг просто посчитается на map-узлах за те же условные 20 минут, вместо 20 секунд на клиентских нодах. а зачем ? пока там клиенты гоняли по wi-fi эти гигабайты и ярн рестартовал задачи, клиентский комп намотал шифровальщика и часть вычислений превратил уже в кашу. мне кажется индустрия уже что-то такое проходило во времена foxpro. помню старперы вечно бегали по этажам пытаясь понять у кого вирус и кто дописывает мусор в конец dbf файликов. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 09.09.2020, 18:26 | 
  
  
  
   | 
||
| 
 
map reduce в масштабе все организации 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Смысл в том, чтобы размазать все данные по контейнерам на простых пользовательских машинахДоступность и сетевая производительность каждого контейнера будет под большим вопросом. А также администрирование. По сабжу: качество бреда отменное. Плюсую... ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 10.09.2020, 09:17 | 
  
  
  
   | 
||
| 
 
map reduce в масштабе все организации 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  L_argo, Сетевые сбои крайне редки, а если все же происходят, то не будет работать не только то, что нарисовано на картинке, но и все другие системы. Также уже не редки 10-гигабитные сетки. Вопросы доступности узлов решаются многократной избыточностью и неотключаемым ядром. Производительность тоже вопрос решаемый, скажем, выделить каждому контейнеру сколько-то Гб ОЗУ, CPU с самым низким приоритетом и свой nvme-диск. Ведь не секрет, что 95% времени обычные офисные машины просто простаивают и уж точно не утилизируют полностью ресурсы процессора. Почему вообще такая идея возникла - сейчас все идут в сторону удешевления, в том числе и в плане перехода на на дешёвое потребительское оборудование в датацентрах. Так почему бы не сделать нечто вроде SETI@home или ее аналогов для больших корпораций? ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 10.09.2020, 17:03 | 
  
  
  
   | 
||
| 
 
map reduce в масштабе все организации 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Критик нечто вроде SETI@home или ее аналогов ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 10.09.2020, 17:17 | 
  
  
  
   | 
||
| 
 | 

start [/forum/topic.php?desktop=1&fid=49&tid=1857263]:  | 
    0ms | 
get settings:  | 
    11ms | 
get forum list:  | 
    14ms | 
check forum access:  | 
    4ms | 
check topic access:  | 
    4ms | 
track hit:  | 
    64ms | 
get topic data:  | 
    13ms | 
get forum data:  | 
    3ms | 
get page messages:  | 
    47ms | 
get tp. blocked users:  | 
    2ms | 
| others: | 241ms | 
| total: | 403ms | 

| 0 / 0 | 

    Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
    
    
    «На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
    
    
    ... ля, ля, ля ...