Вопрос по производительности isin в spark / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Вопрос по производительности isin в spark

1 сообщений из 1, страница 1 из 1

Вопрос по производительности isin в spark

#39770389

Александр Бердышев

Участник

Откуда: Санкт-Петербург

Сообщения: 201

Рейтинг: 0 / 0

Коллеги, добрый день.

Возник вопрос: в спарке есть датасет со столбцом типа int
и у нас есть list, содержащий несколько int значений: val1, val2, val3

Один мой знакомый просто делает dataset.filter(column.isin(vList:_*))

На мой взгляд, в этот момент vList раскрывается в строку со значениями через запятую (val1,val2,val3), после чего значение из колонки приводится к строке, и идёт текстовый поиск вхождения значения из колонки в получившуюся строку (val1,val2,val3)

Я же в таком случае предлагаю явно указать все параметры через логический ИЛИ: dataset.filter(column === val1 || column === val2 || column === val3)
В этом случае во первых будет меньше операций преобразования типов, во вторых будут сравнения чисел, а не строк, в третьих - будут использоваться все доступные индексы.

Кто в этом хорошо разбирается - можете подсказать, кто из нас прав, а кто заблуждается?

...

Рейтинг:

0 / 0

06.02.2019, 19:34

| Ответить | Цитировать | Написать

1 сообщений из 1, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Вопрос по производительности isin в spark

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&fpage=3&tid=1856598]:	0ms
get settings:	10ms
get forum list:	19ms
check forum access:	3ms
check topic access:	3ms
track hit:	34ms
get topic data:	10ms
get forum data:	2ms
get page messages:	38ms
get tp. blocked users:	1ms
others:	245ms

total:	365ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы