powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Spark. Распределительный ключ и партиции для локальности данных
1 сообщений из 1, страница 1 из 1
Spark. Распределительный ключ и партиции для локальности данных
    #39121043
kT_________
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги, привет!
есть задача:

плоский файл, где первое поле id
хэш генерируемый по каждой строчке может совпадать для двух и более строк
hashMap: хэш -> Seq(тут_набор_совпавших_id_для_данного_хэша)
требуется сравнить все совпавшие строки для каждого ключа в мапе


как видно из условия даже если добавить изначально хэш в каждую строчку и распределиться по хэшу между нодами, на этапе сравнения локальности данных не будет и сами строки активно будут пересылаиься между нодами и тут вопрос 1:

lookup (не важно по хэшу либо по id) в целевой партиции соответствующей ей узла совсем не O(1), т е когда в партиции RDD вида ключ -> строка, где ключ id или хэш

это решается через snapByKey и распределительный ключ Кассандры, будет быстро, да, но вторая часть задачи и вопрос 2:

каким образом собрать все строки совпавшие по хэшу на одном узле ! без двойного их занесения в память

правильно я понимаю чо их надо нале прохэшировать и паспределиться исходя из полученного хэша?
...
Рейтинг: 0 / 0
1 сообщений из 1, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Spark. Распределительный ключ и партиции для локальности данных
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]