Как оптимизировать сложный запрос? / Проектирование БД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Как оптимизировать сложный запрос?

19 сообщений из 19, страница 1 из 1

Как оптимизировать сложный запрос?

#35750396

Ареч

Гость

Коллеги, приветствую!

Решаю одну очень интересную задачку, но мои скромные знания уже не дают нужного результата, а он необходим срочно, посему прошу уделить мне немного внимания.

Итак, требуется хранить в базе (PostgreSQL) набор прямоугольников на плоскости. Прямоугольники могут накладываться друг на друга, поэтому чтобы избежать случайности в наложении каждому прямоугольнику присвоено весовое значение:

TABLE data(
id integer PRIMARY KEY; -- идентификатор
mybox box; -- прямоугольник, далее - бокс
weight float8; -- вес
);

Задача состоит в том, чтобы осуществлять выборку самых лёгких боксов внутри определённой области прямоугольной формы (далее будем называть её "мегаплиткой") так, чтобы плотность боксов (количество боксов на единицу площади) не превышала бы определённого порогового значения в N штук на площадь. Если мы назовём "плиткой" прямоугольник со стороной в 1/8 стороны мегаплитки, т.е. разобьём мегаплитку на 256 равных плиток, то требование плотности удовлетворительно упрощается до "не более N боксов на одну плитку".
Есть еще требование на размер прямоугольника относительно размера мегаплитки, однако им для рассмотрения можно пренебречь, но стоит помнить, что в выборках оно так же учитывается.

У меня уже почти есть лобовое решение задачи (оно ещё не полностью реализовано, но всё понятно, как делать):

1) написана SQL-функция, состоящая из одного SELECT, выполняющего выборку N самых лёгких боксов внутри плитки (при этом, пользуемся встроенной в постгрес поддержкой геометрических фигур для определения размера бокса и пересечения плитки с боксом). Функция возвращает массив идентификаторов подходящих боксов. Выглядит она так (условие размера на бокс удалено за несущественностью):
CREATE OR REPLACE FUNCTION get_boxes_tile(tile box) RETURNS integer[] AS
$$
SELECT ARRAY( SELECT id FROM data WHERE mybox && $1 ORDER BY weight DESC LIMIT N );
$$ LANGUAGE sql STRICT STABLE;

2) внутри plpgsql-функции создаём разбиение мегаплитки на плитки, и для каждой из 8*8==256 плиток вычисляем с помощью get_boxes_tile() входящие в них боксы. Затем сливаем массивы в единый список, для которого уже извлекаем из базы значения самих боксов и возвращаем их вызывающему.

Теперь собственно вопрос: а как бы это оптимизировать? Ведь фактически получается, что для каждой выборки на одну мегаплитку база будет выполнять 256 проходов по таблице data и хорошо, но нереально, если там 100 строк. Но 10 000 или 100 000 - куда более реальное значение и база будет обсчитывать один запрос очень долго.
Можно ли как-то составить запрос в функции get_boxes_tile() таким образом, чтобы он за один проход по базе вычислял бы боксы для нескольких плиток? (добавить в WHERE AND "пересечение бокса с соседней плиткой" не пойдёт, т.к. при этом нарушится условие плотности - LIMIT будет считаться для двух плиток, а не одной).

Спасибо.

...

Рейтинг:

0 / 0

11.01.2009, 09:31

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750435

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

1) а почему нельзя одним запросом получить все боксы, находящиеся внутри мегаплитки, и этот список разбирать уже процедурно?
2) PostgreSQL умеет для выборки боксов применять какие-либо индексы? Если да, то откуда "256 проходов по таблице data" ?

...

Рейтинг:

0 / 0

11.01.2009, 10:12

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750457

Ареч

Гость

miksoft,

> 1) а почему нельзя одним запросом получить все боксы, находящиеся внутри мегаплитки, и этот список разбирать уже процедурно?

По условиям боксов внутри одной мегаплитки может быть очень много. Сотни тысяч, скажем так. Может быть миллионы. Мне кажется, даже если писать plpgsql функцию для этого, всё равно такой ручной перебор займёт больше... Хотя, это ещё требует проверки, у меня мало опыта...
Спасибо за идею, наверное, попробую и так и сравню результаты.

> 2) PostgreSQL умеет для выборки боксов применять какие-либо индексы? Если да, то откуда "256 проходов по таблице data" ?

Честно говоря, у меня нет никаких значимых знаний на эту тему, поэтому и спрашиваю.

...

Рейтинг:

0 / 0

11.01.2009, 10:28

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750467

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

Ареч> 2) PostgreSQL умеет для выборки боксов применять какие-либо индексы? Если да, то откуда "256 проходов по таблице data" ?

Честно говоря, у меня нет никаких значимых знаний на эту тему, поэтому и спрашиваю.Вот с этого и начните чтение документации. Даже при беглом просмотре вижу, что актуальны разделы 9.11. Geometric Functions and Operators и 11.2. Index Types . В т.ч. обратите внимание на ключевое слово GiST.

...

Рейтинг:

0 / 0

11.01.2009, 10:36

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750480

Ареч

Гость

miksoftВот с этого и начните чтение документации. Даже при беглом просмотре вижу, что актуальны разделы 9.11. Geometric Functions and Operators и 11.2. Index Types . В т.ч. обратите внимание на ключевое слово GiST.

Спасибо, вы уже здорово мне помогли :)
Геометрические операторы я уже, наверное, наизусть помню, а за GiST спасибо, не знал. Это кое-что облегчит.
Но правильно ли я понимаю, что GiST облегчит базе только проход по таблице при обработке одного SELECT ? И если (как я описывал в "лобовом" алгоритме) выполнять отдельный вызов функции get_boxes_tile() для обработки каждой из 256 плиток, то всё равно будет 256 обращений к таблице (пусть благодаря GiST и не полных проходов по ней). А можно ли как-нить сократить число обращений?

...

Рейтинг:

0 / 0

11.01.2009, 10:49

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750489

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

АречИ если (как я описывал в "лобовом" алгоритме) выполнять отдельный вызов функции get_boxes_tile() для обработки каждой из 256 плиток, то всё равно будет 256 обращений к таблице (пусть благодаря GiST и не полных проходов по ней). А можно ли как-нить сократить число обращений?Сократить-то можно, но нужно ли - это уже вам решать. Или даже пробовать. Не зная всех особенностей данных и тонкостей работы PostgreSQL с такими объектами, сложно сказать.
Вы бы спрашивали хотя бы в профильном подфоруме...

...

Рейтинг:

0 / 0

11.01.2009, 10:56

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750499

Ареч

Гость

miksoftВы бы спрашивали хотя бы в профильном подфоруме...
Да я ещё толком не понял даже, насколько это постгрессо-специфичный вопрос ;)
Сейчас выложу там ссылку сюда, спасибо за идею.

...

Рейтинг:

0 / 0

11.01.2009, 11:06

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750502

Ареч

Гость

miksoftАречИ если (как я описывал в "лобовом" алгоритме) выполнять отдельный вызов функции get_boxes_tile() для обработки каждой из 256 плиток, то всё равно будет 256 обращений к таблице (пусть благодаря GiST и не полных проходов по ней). А можно ли как-нить сократить число обращений?Сократить-то можно..
А как конкретно? Я не понимаю, как составить тогда запрос, чтобы, например, одним селектом для двух плиток проверять плотности и находить N самых лёгких. Два LIMITа получается?.. И как же их вкорячить в один селект?

...

Рейтинг:

0 / 0

11.01.2009, 11:08

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750515

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

АречА как конкретно? Я не понимаю, как составить тогда запрос, чтобы, например, одним селектом для двух плиток проверять плотности и находить N самых лёгких. Два LIMITа получается?.. И как же их вкорячить в один селект?Это тоже постгрессо-специфичный вопрос :)
В MySQL я бы такое сделал при помощи переменных в запросе. PostgreSQL, извините, не знаю.
В крайнем случае LIMIT можно убрать вообще и вычислять его уже процедурно.

...

Рейтинг:

0 / 0

11.01.2009, 11:19

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750545

Ареч

Гость

miksoftАречА как конкретно? Я не понимаю, как составить тогда запрос, чтобы, например, одним селектом для двух плиток проверять плотности и находить N самых лёгких. Два LIMITа получается?.. И как же их вкорячить в один селект?Это тоже постгрессо-специфичный вопрос :)
В MySQL я бы такое сделал при помощи переменных в запросе. PostgreSQL, извините, не знаю.
В крайнем случае LIMIT можно убрать вообще и вычислять его уже процедурно.
О! Кстати, процедурно это может оказаться маза! Попробую и этот вариант, спасибо!!

...

Рейтинг:

0 / 0

11.01.2009, 11:36

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750601

CVT

Участник

Сообщения: 44

Рейтинг: 0 / 0

Может, у меня плохо с математикой, но почему
авторсоздаём разбиение мегаплитки на плитки, и для каждой из 8*8==256 плиток?

...

Рейтинг:

0 / 0

11.01.2009, 12:18

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750661

Ареч

Гость

CVTМожет, у меня плохо с математикой, но почему
авторсоздаём разбиение мегаплитки на плитки, и для каждой из 8*8==256 плиток?
))))))))))))))))))))))))))) да, вы правы)))))))))) недосып начинает сурово сказываться))))
Но всё же сильно на суть это не влияет, мне кажется :)

...

Рейтинг:

0 / 0

11.01.2009, 12:57

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750723

Kruchinin Pahan

Участник

Откуда: Екатеринбург

Сообщения: 926

Рейтинг: 0 / 0

АречmiksoftАречИ если (как я описывал в "лобовом" алгоритме) выполнять отдельный вызов функции get_boxes_tile() для обработки каждой из 256 плиток, то всё равно будет 256 обращений к таблице (пусть благодаря GiST и не полных проходов по ней). А можно ли как-нить сократить число обращений?Сократить-то можно..
А как конкретно? Я не понимаю, как составить тогда запрос, чтобы, например, одним селектом для двух плиток проверять плотности и находить N самых лёгких. Два LIMITа получается?.. И как же их вкорячить в один селект?
Есть специфичная фича в PG. DISTINCT ON (Fld1, Fld2, ... , FldN) ... ORDER BY Fld1, Fld2, ... , FldN, FldN+1, ... , FldN+M

Почитайте внимательно, безотносительно вашей задачи, как раз и дает LIMIT по N значениям.

...

Рейтинг:

0 / 0

11.01.2009, 13:28

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750778

Ареч

Гость

...

Рейтинг:

0 / 0

11.01.2009, 14:03

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750981

Ареч

Гость

Kruchinin PahanЕсть специфичная фича в PG. DISTINCT ON (Fld1, Fld2, ... , FldN) ... ORDER BY Fld1, Fld2, ... , FldN, FldN+1, ... , FldN+M

Почитайте внимательно, безотносительно вашей задачи, как раз и дает LIMIT по N значениям.

Хм... Честно говоря, не понял.

1) DISTINCT отбирает в результат только те ряды, для которых отличается результат вычисления хоть одного выражения. Правильно? Соответственно DISTINCT ON (Fld1, Fld2, ... , FldN) (с ордером, но не суть) даст только те ряды, в которых (Fld1, Fld2, ... , FldN) различны. Но откуда следует, что это эквивалентно LIMIT N? Количество таких различий зависит и от разнообразия входных данных, а в LIMIT N это не так.
Например, у меня в таблице три поля: Fld1, Fld2, Fld3. Первое константа, второе принимает 3 значение, третье произвольно. Строю SELECT DISTINCT ON (fld1, fld2) * from my_table order by fld1, fld2, fld3; - и в результате получу 3 значения, но никак не 2. Или я что-то не так понимаю?

2) если у меня где-то ошибка в (1), то как мне сформировать условия DISTINCT, чтобы ограничение в N элементов работало бы по одному полю weight? Как??

Спасибо

...

Рейтинг:

0 / 0

11.01.2009, 15:38

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35750985

Ареч

Гость

АречПервое константа, второе принимает 3 значение
Пардон, опечатка, правильно:
Первое константа, второе принимает 3 значени я

...

Рейтинг:

0 / 0

11.01.2009, 15:39

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35751545

Gold_

Гость

Мне одному задача не понятна? :)
Исходное задание можно увидеть ?
Что такое "весовое значение"?
Что такое "случайности в наложении"?
Если только часть бокса внутри мегаплитки он входит в "плотность боксов"?
Не понял как разбиение упростило условие?
"Плотность боксов" должна отслеживать база?

...

Рейтинг:

0 / 0

11.01.2009, 23:12

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35754519

Ареч

Гость

Gold_Мне одному задача не понятна? :)
Не исключено :)

> Исходное задание можно увидеть ?
Фактически, описанное и есть исходное задание.
Ещё можно добавить, что все боксы вписаны внутрь одного большого прямоугольника, контейнера. Мегаплитки - это по сути фиксированные варианты разбиения контейнера. Есть вариант, когда мегаплитка представляет собой весь контейнер, на следующем уровне зума сторона контейнера делится пополам и сам контейнера разбивается таким образом на 4 мегаплитки, на следующем - ещё вдвое, всего на 8 мегаплиткок и так далее примерно полтора десятка раз.

> Что такое "весовое значение"?
Возможно, понятие z-order вам ближе?

> Что такое "случайности в наложении"?
Выборка из базы, особенно ограниченная limit, должна быть упорядочена, иначе порядок и в случае с limit вообще сами возвращённые строки, будут произвольными, зависящими от реализации.

> Если только часть бокса внутри мегаплитки он входит в "плотность боксов"?
Да, без сомнения. Он же присутствует в заданной точки плоскости, значит вносит свой вклад в плотность.

> Не понял как разбиение упростило условие?
Ну, по крайней мере хоть стало ясно, как решать задачу плотности. Это, конечно, не dx->0, dy->0 с классическим интегрированием по площади, но всё же вполне достаточно для удовлетворительного результата.

> "Плотность боксов" должна отслеживать база?
Да, конечно. В условиях же написал, что кол-во боксов может быть сотни тысяч и более.

...

Рейтинг:

0 / 0

13.01.2009, 12:33

| Ответить | Цитировать | Написать

Как оптимизировать сложный запрос?

#35933311

Warstone

Участник

Сообщения: 4 422

Рейтинг: 0 / 0

Автор, вам на Геимдев читать про Quard-tree это очень похоже на что вы пытаетесь сделать, только в 3д и использовалось для оптимизации(отсечения невидимых треугольников) процесс рендеринга еще со времен Quake3(если не раньше). И тут все украдено до нас (с)

...

Рейтинг:

0 / 0

15.04.2009, 14:04

| Ответить | Цитировать | Написать

19 сообщений из 19, страница 1 из 1

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Как оптимизировать сложный запрос?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=32&msg=35750985&tid=1543304]:	0ms
get settings:	7ms
get forum list:	16ms
check forum access:	3ms
check topic access:	3ms
track hit:	153ms
get topic data:	8ms
get forum data:	2ms
get page messages:	39ms
get tp. blocked users:	1ms
others:	224ms

total:	456ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы