powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop architecture
6 сообщений из 6, страница 1 из 1
Hadoop architecture
    #38992628
navio
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги эксперты, я новичек в хадуп

Подскажите пожалуйста по устройству хадупа:

Скажем есть n нод:

Node1
Map over Node1 data partitions

Node2
Map over Node2 data partitions

Node3
Map over Node3 data partitions

Node4
Map over Node4 data partitions

Далее допустим нам нужна сортировка
Как будет работать хадуп ?

Будет ли осуществлен переброс данных с ноду на ноду ?

Спасибо.
...
Рейтинг: 0 / 0
Hadoop architecture
    #38992700
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
navioДалее допустим нам нужна сортировка
Как будет работать хадуп ?


Что значит "нам нужна сортировка"? Что запускается? Откуда? Запрос из hive, или просто код через hadoop jar ...?
...
Рейтинг: 0 / 0
Hadoop architecture
    #38992726
navio
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Запрос через Apache TEZ

хотим выполнить флоу с группировкой и сортировкой

Допустим есть 10 физических машин

Как хадуп будет получать данные с одной машины на другую ?
...
Рейтинг: 0 / 0
Hadoop architecture
    #38995184
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
navioЗапрос через Apache TEZ

хотим выполнить флоу с группировкой и сортировкой

Допустим есть 10 физических машин

Как хадуп будет получать данные с одной машины на другую ?

У тебя есть файл с данными myfile.log. При записи в HDFS он разбивается на множество блоков, которые Name Node распределяет по разным нодам. Более того, чтобы данные не потерялись в случае выхода из строя оборудования, происходит репликация всех блоков (тройная по умолчанию).
В TEZ ты создаешь табличку, в основе которой лежит файл myfile.log. Когда в SQL движке пишешь запросик, он превращается в map-reduce job. Name Node копирует map job на те ноды где, есть блоки файла myfile.log. Каждая нода в параллели обрабатывает свой кусок данных. Затем результаты передаются на одну из нод, где и просходит reduce job - т.е. получение финального результата, который возвращается клиенту.
...
Рейтинг: 0 / 0
Hadoop architecture
    #38995197
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbatЗатем результаты передаются на одну из нод, где и просходит reduce job - т.е. получение финального результата, который возвращается клиенту.

Не всегда на одну. Вполне возможно, что редьюс будет идти на тех же 10 нодах.
По мере работы map выбираются ноды для группировки- где-то на 85% map начинается вычисление и передача результатов (и начинает щёлкать счётчик reduce).
Когда map завершён- данные окончательно передаются на нужные ноды и запускается собственно reduce. Это может быть, даже если нужно одно значение (результат потом окончательно просуммируется на одной ноде), а уж если group - то точно будет на нескольких работать.
...
Рейтинг: 0 / 0
Hadoop architecture
    #38995462
navio
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А как работает Хадуп если нужна группировка данных через Tez

Когда данные на одной ноде должны быть учтены с другой ноды ?
...
Рейтинг: 0 / 0
6 сообщений из 6, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop architecture
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]