|
Hadoop architecture
|
|||
---|---|---|---|
#18+
Коллеги эксперты, я новичек в хадуп Подскажите пожалуйста по устройству хадупа: Скажем есть n нод: Node1 Map over Node1 data partitions Node2 Map over Node2 data partitions Node3 Map over Node3 data partitions Node4 Map over Node4 data partitions Далее допустим нам нужна сортировка Как будет работать хадуп ? Будет ли осуществлен переброс данных с ноду на ноду ? Спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.06.2015, 13:53 |
|
Hadoop architecture
|
|||
---|---|---|---|
#18+
navioДалее допустим нам нужна сортировка Как будет работать хадуп ? Что значит "нам нужна сортировка"? Что запускается? Откуда? Запрос из hive, или просто код через hadoop jar ...? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.06.2015, 14:24 |
|
Hadoop architecture
|
|||
---|---|---|---|
#18+
Запрос через Apache TEZ хотим выполнить флоу с группировкой и сортировкой Допустим есть 10 физических машин Как хадуп будет получать данные с одной машины на другую ? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.06.2015, 14:33 |
|
Hadoop architecture
|
|||
---|---|---|---|
#18+
navioЗапрос через Apache TEZ хотим выполнить флоу с группировкой и сортировкой Допустим есть 10 физических машин Как хадуп будет получать данные с одной машины на другую ? У тебя есть файл с данными myfile.log. При записи в HDFS он разбивается на множество блоков, которые Name Node распределяет по разным нодам. Более того, чтобы данные не потерялись в случае выхода из строя оборудования, происходит репликация всех блоков (тройная по умолчанию). В TEZ ты создаешь табличку, в основе которой лежит файл myfile.log. Когда в SQL движке пишешь запросик, он превращается в map-reduce job. Name Node копирует map job на те ноды где, есть блоки файла myfile.log. Каждая нода в параллели обрабатывает свой кусок данных. Затем результаты передаются на одну из нод, где и просходит reduce job - т.е. получение финального результата, который возвращается клиенту. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 16:31 |
|
Hadoop architecture
|
|||
---|---|---|---|
#18+
haXbatЗатем результаты передаются на одну из нод, где и просходит reduce job - т.е. получение финального результата, который возвращается клиенту. Не всегда на одну. Вполне возможно, что редьюс будет идти на тех же 10 нодах. По мере работы map выбираются ноды для группировки- где-то на 85% map начинается вычисление и передача результатов (и начинает щёлкать счётчик reduce). Когда map завершён- данные окончательно передаются на нужные ноды и запускается собственно reduce. Это может быть, даже если нужно одно значение (результат потом окончательно просуммируется на одной ноде), а уж если group - то точно будет на нескольких работать. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 16:54 |
|
|
start [/forum/topic.php?fid=48&fpage=8&tid=1856817]: |
0ms |
get settings: |
11ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
28ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
46ms |
get tp. blocked users: |
2ms |
others: | 242ms |
total: | 363ms |
0 / 0 |