powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Вопрос по производительности isin в spark
1 сообщений из 1, страница 1 из 1
Вопрос по производительности isin в spark
    #39770389
Александр Бердышев
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги, добрый день.

Возник вопрос: в спарке есть датасет со столбцом типа int
и у нас есть list, содержащий несколько int значений: val1, val2, val3


Один мой знакомый просто делает dataset.filter(column.isin(vList:_*))

На мой взгляд, в этот момент vList раскрывается в строку со значениями через запятую (val1,val2,val3), после чего значение из колонки приводится к строке, и идёт текстовый поиск вхождения значения из колонки в получившуюся строку (val1,val2,val3)

Я же в таком случае предлагаю явно указать все параметры через логический ИЛИ: dataset.filter(column === val1 || column === val2 || column === val3)
В этом случае во первых будет меньше операций преобразования типов, во вторых будут сравнения чисел, а не строк, в третьих - будут использоваться все доступные индексы.

Кто в этом хорошо разбирается - можете подсказать, кто из нас прав, а кто заблуждается?
...
Рейтинг: 0 / 0
1 сообщений из 1, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Вопрос по производительности isin в spark
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]