Spark. Распределительный ключ и партиции для локальности данных / NoSQL, Big Data

ReSQL.ru

2.0.61

Полная версия Контакт Правила FAQ Помощь

Гость

Войти | Профиль | Очистить

Нов. | Гор. | Избр.

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Действия ...

Доб. в избранное
Игнор. тему
Прикреп. тему
Пометить прочит. / непрочит.
Фильтр:
Сообщения автора темы
Сообщение содержит вложения
Сообщение содержит картинки
Сообщение содержит видеоклипы
Сообщение содержит аудиоклипы
Сообщение содержит картинки или видео 18+

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Spark. Распределительный ключ и партиции для локальности данных / 1 сообщений из 1, страница 1 из 1

04.12.2015, 20:38

#39121043

kT_________

Участник

Сообщения: 281
Рейтинг: 0 / 0

Spark. Распределительный ключ и партиции для локальности данных

Коллеги, привет!
есть задача:

плоский файл, где первое поле id
хэш генерируемый по каждой строчке может совпадать для двух и более строк
hashMap: хэш -> Seq(тут_набор_совпавших_id_для_данного_хэша)
требуется сравнить все совпавшие строки для каждого ключа в мапе

как видно из условия даже если добавить изначально хэш в каждую строчку и распределиться по хэшу между нодами, на этапе сравнения локальности данных не будет и сами строки активно будут пересылаиься между нодами и тут вопрос 1:

lookup (не важно по хэшу либо по id) в целевой партиции соответствующей ей узла совсем не O(1), т е когда в партиции RDD вида ключ -> строка, где ключ id или хэш

это решается через snapByKey и распределительный ключ Кассандры, будет быстро, да, но вторая часть задачи и вопрос 2:

каким образом собрать все строки совпавшие по хэшу на одном узле ! без двойного их занесения в память

правильно я понимаю чо их надо нале прохэшировать и паспределиться исходя из полученного хэша?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&tablet=1&tid=1856781]:	0ms
get settings:	9ms
get forum list:	15ms
check forum access:	3ms
check topic access:	3ms
track hit:	183ms
get topic data:	10ms
get forum data:	3ms
get page messages:	30ms
get tp. blocked users:	1ms
others:	204ms

total:	461ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы