Зачем хадуп выполняет сортировку? / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Зачем хадуп выполняет сортировку?

3 сообщений из 3, страница 1 из 1

Зачем хадуп выполняет сортировку?

#39242554

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Добрый день!

После выполнения map и Shuffle хадуп зачем-то выполняет сортировку по ключу.
Зачем это надо, если на входе reducer'а достаточно сгруппировать данные? ВРоде как без сортировки было бы быстрее?
Кстати, группировку хадуп выполняет если compareTo == 0

Кроме того, что делает (и долго делает) mapper, если он пустой? Т.е. на вход задаче подан выхлоп reducer'а в виде ключ/значение и надо сделать ещё один reducer именно по этому ключу. Я указываю постой map, но реально он работает и это может занять час...

--
Алексей.

...

Рейтинг:

0 / 0

24.05.2016, 17:18

| Ответить | Цитировать | Написать

Зачем хадуп выполняет сортировку?

#39242712

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Оказывается, они сами не знают, зачем
Ну и ещё в тему .

...

Рейтинг:

0 / 0

24.05.2016, 20:33

| Ответить | Цитировать | Написать

Зачем хадуп выполняет сортировку?

#39250155

jsa54513

Участник

Откуда: p

Сообщения: 5 592

Рейтинг: 0 / 0

Сортировка лежит в основе такой вещи, как SSTable. А это лежит в основе транспорта данных в современном BigData из-за того, что передавать данные удобнее и дешевле большими блоками. Большие дёшевы потому, что потенциал дисков по скорости (любые, даже SSD) хорошо раскрывается только на больших последовательных записях, типа там по 128 мегабайт. Когда редьюсер редьюсит ключ, ему проще последовательно глянуть в 3 блока (в пределах которых лежат все экземпляры этого ключа), держа значение ключа в ОЗУ, чем сканить весь объём данных бесконечно откладывая новые блоки.

Короче - так быстрее с учётом текущей физики аппаратуры хранения.

...

Рейтинг:

0 / 0

03.06.2016, 14:46

| Ответить | Цитировать | Написать

3 сообщений из 3, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Зачем хадуп выполняет сортировку?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&fpage=7&tid=1856748]:	0ms
get settings:	8ms
get forum list:	18ms
check forum access:	4ms
check topic access:	4ms
track hit:	60ms
get topic data:	13ms
get forum data:	4ms
get page messages:	55ms
get tp. blocked users:	2ms
others:	238ms

total:	406ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы