Гость
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop architecture / 6 сообщений из 6, страница 1 из 1
25.06.2015, 13:53
    #38992628
navio
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Hadoop architecture
Коллеги эксперты, я новичек в хадуп

Подскажите пожалуйста по устройству хадупа:

Скажем есть n нод:

Node1
Map over Node1 data partitions

Node2
Map over Node2 data partitions

Node3
Map over Node3 data partitions

Node4
Map over Node4 data partitions

Далее допустим нам нужна сортировка
Как будет работать хадуп ?

Будет ли осуществлен переброс данных с ноду на ноду ?

Спасибо.
...
Рейтинг: 0 / 0
25.06.2015, 14:24
    #38992700
Alexey Tomin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Hadoop architecture
navioДалее допустим нам нужна сортировка
Как будет работать хадуп ?


Что значит "нам нужна сортировка"? Что запускается? Откуда? Запрос из hive, или просто код через hadoop jar ...?
...
Рейтинг: 0 / 0
25.06.2015, 14:33
    #38992726
navio
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Hadoop architecture
Запрос через Apache TEZ

хотим выполнить флоу с группировкой и сортировкой

Допустим есть 10 физических машин

Как хадуп будет получать данные с одной машины на другую ?
...
Рейтинг: 0 / 0
29.06.2015, 16:31
    #38995184
haXbat
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Hadoop architecture
navioЗапрос через Apache TEZ

хотим выполнить флоу с группировкой и сортировкой

Допустим есть 10 физических машин

Как хадуп будет получать данные с одной машины на другую ?

У тебя есть файл с данными myfile.log. При записи в HDFS он разбивается на множество блоков, которые Name Node распределяет по разным нодам. Более того, чтобы данные не потерялись в случае выхода из строя оборудования, происходит репликация всех блоков (тройная по умолчанию).
В TEZ ты создаешь табличку, в основе которой лежит файл myfile.log. Когда в SQL движке пишешь запросик, он превращается в map-reduce job. Name Node копирует map job на те ноды где, есть блоки файла myfile.log. Каждая нода в параллели обрабатывает свой кусок данных. Затем результаты передаются на одну из нод, где и просходит reduce job - т.е. получение финального результата, который возвращается клиенту.
...
Рейтинг: 0 / 0
29.06.2015, 16:54
    #38995197
Alexey Tomin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Hadoop architecture
haXbatЗатем результаты передаются на одну из нод, где и просходит reduce job - т.е. получение финального результата, который возвращается клиенту.

Не всегда на одну. Вполне возможно, что редьюс будет идти на тех же 10 нодах.
По мере работы map выбираются ноды для группировки- где-то на 85% map начинается вычисление и передача результатов (и начинает щёлкать счётчик reduce).
Когда map завершён- данные окончательно передаются на нужные ноды и запускается собственно reduce. Это может быть, даже если нужно одно значение (результат потом окончательно просуммируется на одной ноде), а уж если group - то точно будет на нескольких работать.
...
Рейтинг: 0 / 0
29.06.2015, 23:56
    #38995462
navio
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Hadoop architecture
А как работает Хадуп если нужна группировка данных через Tez

Когда данные на одной ноде должны быть учтены с другой ноды ?
...
Рейтинг: 0 / 0
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop architecture / 6 сообщений из 6, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]