Быстрая альтернатива SUM / MySQL

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / MySQL [игнор отключен] [закрыт для гостей] / Быстрая альтернатива SUM

17 сообщений из 17, страница 1 из 1

Быстрая альтернатива SUM

#39974853

azlab

Гость

Всем привет.

Есть таблица с большим числом полей, каждое из которого хранит или NULL или 1. Других значений не бывает.
Строки - это товары, столбцы - атрибуты товара. Таблица генерируется динамически после изменений каталога и предназначена специально для получения агрегированных данных. Изначально планировалось получать кол-во товара по каждому атрибуту.

Пример: есть столбец "цвет синий" и сумма всех записей по этому столбцу - даст нам кол-во товаров с этим атрибутом.

Все прекрасно, но в какой-то момент кол-во уже не играет роли, а играет роль сам факт хоть одной записи с заданным атрибутом. То есть SUM не нужен, достаточно хоть одного значения в столбце NOT IS NULL, чтобы вывести в результат агрегации 1 или NULL (или 0).

Собственно есть ли функция, работающая по такому принципу? Чтобы она не анализировала ВСЕ записи как это делает SUM, находя сумму, а по факту совпадения любой записи с заданным условием - давала результат игнорируя остальные записи?

Хотя SUM работает очень быстро, но при большой кол-ве выбираемых строк с SUM результат даже на небольшой кол-ве строк заметны тормоза. Поэтому хочу попробовать с некой альтернативой для SUM.

...

Рейтинг:

0 / 0

01.07.2020, 11:10

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974858

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

azlab,

Фунция COUNT(поле) считает количество NOT NULL значений в указанном поле.
Но это вы хотите или нет - я из вашего описания не понял.

...

Рейтинг:

0 / 0

01.07.2020, 11:17

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974867

azlab

Гость

miksoft

COUNT чуть быстрее, но незначительно. Суть в чем: что SUM что COUNT проверяют все записи, а я ищу некое решение (или функцию) которая будет выдавать результат при первом совпадении, без анализа все строк. Т.е. нужно не кол-во, а факт хотя бы одной строки у которой искомый атрибут не NULL.

Например, есть 1000 строк. У первой строки столбца "цвет синий" - стоит 1. Нет смысла проверять остальные строки, т.к. результат нужен вида "есть хоть один товар с таким атрибутом или нет".

Например, так работает AND в большинстве ЯП: если у нас есть условие cond1 AND cond2 AND cond3 и при этом cond1 вернул FALSE, то остальные условия не проверяются, т.к. наличие FALSE уже делает невозможным возврат TRUE для всех условий объединенных AND. Вот что-то подобное я и хочу получить: некая функция или трюк с выражением, чтобы в выборке по столбцам игнорить их перебор после первого совпадения со значеним равным 1. Я не уверен что такое возможно поэтому и спрашиваю.

...

Рейтинг:

0 / 0

01.07.2020, 12:04

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974870

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

azlab

Т.е. нужно не кол-во, а факт хотя бы одной строки у которой искомый атрибут не NULL.

Все равно еще не очень понятно.
Но есть EXISTS

...

Рейтинг:

0 / 0

01.07.2020, 12:13

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974873

azlab

Гость

miksoft

azlab

Т.е. нужно не кол-во, а факт хотя бы одной строки у которой искомый атрибут не NULL.

Все равно еще не очень понятно.
Но есть EXISTS

EXISTS для подзапросов же.

Попробую объяснить на примере, есть таблица:

Код: sql

1.
2.
3.
4.
5.
6.
7.

attr1     attr2
  0         0
  1         0
  0         0
  0         0
  0         0
  0         0

select sum(attr1), sum(attr2) - текущий вариант

Но SUM не нужна, нужен факт наличие в столбце хоть одного ненулевого значения. То есть в случае с attr1 достаточно проанализировать первые две строки чтоб выдать результат "есть ненулевые значения" и дальнейшие значения по данному столбцу можно игнорить. По второму столбцу - да, придется проверить все чтоб понять что ненулевых нет. Но столбцов много и если есть механизм подобного игнора анализа данных столбца при первом вхождении искомого значения - то должен быть прирост производительсности.

...

Рейтинг:

0 / 0

01.07.2020, 12:31

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974876

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

azlab

EXISTS для подзапросов же.

Ну да, но ничего не мешает его использовать в секции SELECT.

Код: sql

SELECT EXISTS(SELECT NULL FROM mytable WHERE attr1=1 AND остальные_условия_отбора)

...

Рейтинг:

0 / 0

01.07.2020, 12:41

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974887

azlab

Гость

miksoft

azlab

EXISTS для подзапросов же.

Ну да, но ничего не мешает его использовать в секции SELECT.

Код: sql

SELECT EXISTS(SELECT NULL FROM mytable WHERE attr1=1 AND остальные_условия_отбора)

Я ж говорил что столбцов очень много, порядка пары сотен, т.к. таблица для агрегации. Пара сотен подзапросов вместо агрегатных функций уж точно не даст ускорения. По сути да, нужен своебразный EXISTS для значения по полю в формате агрегатной функции. Видимо ничего такого нет.

...

Рейтинг:

0 / 0

01.07.2020, 13:24

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974893

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

azlab

Пара сотен подзапросов вместо агрегатных функций уж точно не даст ускорения.

А они все сразу нужны в одном запросе?

Предложить что-то лучше, полагаю, можно только если знать все детали - точную структуру таблицы, ее демографию, запрос и т.п.
В первую очередь не нравится "горизонтальное" хранение сотен атрибутов. Я бы рассмотрел вариант с "вертикальным" хранением (EAV или типа того).

...

Рейтинг:

0 / 0

01.07.2020, 13:38

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974898

azlab

Гость

miksoft

azlab

Пара сотен подзапросов вместо агрегатных функций уж точно не даст ускорения.

Да, нужны все сразу. Вертикальное хранение дает худший результат по производительности. Но я понимаю о чем вы, пару SUM работают в два раза быстрее чем пара сотен SUM. Может есть способ указать типа "применить агрегатную функцию ко всем столбцам" и это будет быстрее, чем перечисление всех полей?

...

Рейтинг:

0 / 0

01.07.2020, 13:44

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974904

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

azlab

Вертикальное хранение дает худший результат по производительности.

Сколько же у вас товаров?

В свое время 10 миллионов атрибутов при вертикальном хранении у меня работали достаточно быстро, чтобы поиск по ним занимал меньше секунды.
Кроме того "вертикальное"хранение хорошо тем, что не изменяются запросы при добавлении новых атрибутов.

azlab

Может есть способ указать типа "применить агрегатную функцию ко всем столбцам" и это будет быстрее, чем перечисление всех полей?

Конструкции типа SELECT * для этого нет.
Можно внутри агрегатной функции собрать сразу много полей:

Код: sql

SUM(GREATEST(attr1, attr2, ...))

Но не уверен, что это то, что вам нужно. Да и оптимизации на этом никакой не будет.

...

Рейтинг:

0 / 0

01.07.2020, 14:04

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974941

azlab

Гость

miksoft

azlab

Вертикальное хранение дает худший результат по производительности.

Сколько же у вас товаров?

В свое время 10 миллионов атрибутов при вертикальном хранении у меня работали достаточно быстро, чтобы поиск по ним занимал меньше секунды.
Кроме того "вертикальное"хранение хорошо тем, что не изменяются запросы при добавлении новых атрибутов.

Записей не так уж и много, сейчас запрос занимает примерно 70 ms, я бы хотел сократить это время. Тестирование с вертикальным хранением были больше 100 ms.

...

Рейтинг:

0 / 0

01.07.2020, 15:55

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39974957

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

azlab,

взомите max() аналитической функции (window)

...

Рейтинг:

0 / 0

01.07.2020, 16:16

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39975039

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

azlab

Записей не так уж и много, сейчас запрос занимает примерно 70 ms, я бы хотел сократить это время. Тестирование с вертикальным хранением были больше 100 ms.

Это уже очень хорошее время.
Чтобы его улучшить нужно погружаться в конкретику ситуации.

Возможно, помогут какие-то общие меры:
1) Изменение типа данных (например, перейти от NULL/1 к 0/1, т.к. NOT NULL поля занимают чуть меньше места).
2) Переход на CPU с большей частотой, перенос базы на более быстрый диск (например, с HDD на SSD), перенос темпового каталога в оперативную память.
3) Использовать отдельный индексатор для фасетного поиска (вроде бы Сфинкс так умеет).

...

Рейтинг:

0 / 0

01.07.2020, 18:55

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39975692

azlab

Гость

mikron

azlab,

взомите max() аналитической функции (window)

MAX, MIN, AVG - медленнее COUNT и SUM

...

Рейтинг:

0 / 0

02.07.2020, 22:43

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39975694

azlab

Гость

miksoft

1) Изменение типа данных (например, перейти от NULL/1 к 0/1, т.к. NOT NULL поля занимают чуть меньше места).
2) Переход на CPU с большей частотой, перенос базы на более быстрый диск (например, с HDD на SSD), перенос темпового каталога в оперативную память.
3) Использовать отдельный индексатор для фасетного поиска (вроде бы Сфинкс так умеет).

1. Используется ENUM с одним вариантом 1 и NULL для пусто. Структуру делал не я, но как понимаю были разные эксперименты т.к. остановились именно на таком не совсем стандартном варианте как более быстрым.

2. Таблица живет в ОЗУ, у хостера только SSD

Я просто надеялся что есть какой-то трюк с помощью которого можно как с EXISTS проигнорить большую часть анализа значений, но похоже такого ничего нет. Да, время некритично большое, но увидев как можно избежать проверки всех значений, загорелся идеей сократить на этом время.

Спасибо за помощь!

...

Рейтинг:

0 / 0

02.07.2020, 22:49

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39975702

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

azlab

Я просто надеялся что есть какой-то трюк с помощью которого можно как с EXISTS проигнорить большую часть анализа значений, но похоже такого ничего нет.

Технически EXISTS так и работает - ищет до первого подходящего значения. Но для быстрого поиска ему нужен индекс (если остальные условия пригодны для этого). А создавать сотни индексов на одной таблице в MySQL нельзя.

...

Рейтинг:

0 / 0

02.07.2020, 23:25

| Ответить | Цитировать | Написать

Быстрая альтернатива SUM

#39975704

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

azlab

2. Таблица живет в ОЗУ, у хостера только SSD

Таки посмотрите план запроса. Если там есть временный файл, то перенос темпового каталога в оперативную память может помочь.

...

Рейтинг:

0 / 0

02.07.2020, 23:26

| Ответить | Цитировать | Написать

17 сообщений из 17, страница 1 из 1

Форумы / MySQL [игнор отключен] [закрыт для гостей] / Быстрая альтернатива SUM

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=47&fpage=19&tid=1828485]:	0ms
get settings:	7ms
get forum list:	10ms
check forum access:	3ms
check topic access:	3ms
track hit:	31ms
get topic data:	8ms
get forum data:	2ms
get page messages:	40ms
get tp. blocked users:	1ms
others:	222ms

total:	327ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы