seq_scan при подходящей для индекса селективности / PostgreSQL

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / PostgreSQL [игнор отключен] [закрыт для гостей] / seq_scan при подходящей для индекса селективности

23 сообщений из 23, страница 1 из 1

seq_scan при подходящей для индекса селективности

#39986119

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Ребят, ткните пожалуйста, где можно что то дельное почитать. Проблема такая.

postgresql 12.5

запрос

Select t2.* FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t1.id = 5358;

t2.id primary key

в таблице t2 6млн записей.

В итоге если по t1.id = 5358 отобрано 30400 записей, то используется индекс t2.id primary key, с другим t1.id = 5810 из t1 отбирается 30500 записей и уже идет seq_scan таблицы t2. В итоге 30400 записей достается 0.33ms, а всего на 100 больше 30500 достается уже больше 3секунд.

30500 от 6ти млн это же меньше 1% , селективность для использования индекса хорошая, почему тогда оптимизатор выбирает seq_sqan? В какую сторону копать? Подбирать настройки сервера?

Заранее спасибо.

...

Рейтинг:

0 / 0

03.08.2020, 14:00:04

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986131

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Дальнейшие эксперименты

Select t2.* FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t1.id = 6150; отбирается 40000 записей, используется индекс.

Select t2.* FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t1.id = 5810 ; отбирается 30500 записей, seq_scan

Select t2.id FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t1.id = 5810 ; используется индекс

Select t1.* FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t1.id = 5810 ; используется индекс

Select t1.*, t2.id FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t1.id = 5810 ; используется индекс

Select t1.*, t2.id, t2.group_id FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t1.id = 5810 ; seq_scan

...

Рейтинг:

0 / 0

03.08.2020, 14:39:06

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986133

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Select t2.* FROM t2 JOIN t1 on t2.id=t1.t2_id WHERE t1.id = 5810; seq_scan таблицы t2

Select t2.* FROM t2 WHERE t2.id IN (SELECT t2_id FROM t1 where t1.id = 5810); index scan t2.id pk

...

Рейтинг:

0 / 0

03.08.2020, 15:00:12

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986134

Melkij

Участник

Откуда: Санкт-Петербург

Сообщения: 1 447

Рейтинг: 0 / 0

explain (analyze) показывайте. Вслепую ощупывать слона конечно увлекательно, не малопродуктивно. И на всякий случай уточните какие у вас seq_page_cost, random_page_cost настроены.

...

Рейтинг:

0 / 0

03.08.2020, 15:02:56

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986136

Павел Лузанов

Участник

Сообщения: 866

Рейтинг: 0 / 0

kliff

Select t2.* FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t1.id = 5358;

Можете поменять условие в тексте запроса:
Select t2.* FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t2 .id = 5358;

?

Скорее всего дело в неправильной оценке n_distinct для столбца t1.id.
Что показывает:
select n_distinct from pg_stats where tablename = 't1' and attname = 'id';

...

Рейтинг:

0 / 0

03.08.2020, 15:06:33

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986149

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Melkij

На другом сервере нашел тоже схожую ситуацию, postgres 9.6

авторexplain(analyze, buffers)select
m.*
from messages m
join messages_users u on u.mess_id = m.id
where u.user_id = 140777;

Nested Loop (cost=1.00..253328.46 rows=29696 width=44) (actual time=0.078..180.555 rows=31920 loops=1)
Buffers: shared hit=143395
-> Index Scan using messages_users_user_id_idx on messages_users u (cost=0.56..72884.30 rows=29696 width=4) (actual time=0.061..80.524 rows=31920 loops=1)
Index Cond: (user_id = 140777)
Buffers: shared hit=15548
-> Index Scan using pk_rep_messages on rep_messages m (cost=0.43..6.07 rows=1 width=44) (actual time=0.003..0.003 rows=1 loops=31920)
Index Cond: (id = u.mess_id)
Buffers: shared hit=127847
Planning time: 1.352 ms
Execution time: 182.120 ms

Второй
авторexplain(analyze, buffers)select
m.*
from messages m
join messages_users u on u.mess_id = m.id
where u.user_id = 101678;

Hash Join (cost=197351.00..286288.72 rows=36445 width=44) (actual time=2421.834..2514.146 rows=31620 loops=1)
Hash Cond: (u.mess_id = m.id)
Buffers: shared hit=77644 dirtied=2
-> Index Scan using messages_users_user_id_idx on messages_users u (cost=0.56..88209.38 rows=36445 width=4) (actual time=0.058..69.154 rows=31620 loops=1)
Index Cond: (user_id = 101678)
Buffers: shared hit=19482 dirtied=2
-> Hash (cost=120021.86..120021.86 rows=6186286 width=44) (actual time=2392.010..2392.010 rows=6186564 loops=1)
Buckets: 8388608 Batches: 1 Memory Usage: 548862kB
Buffers: shared hit=58159
-> Seq Scan on messages m (cost=0.00..120021.86 rows=6186286 width=44) (actual time=0.018..576.936 rows=6186564 loops=1)
Buffers: shared hit=58159
Planning time: 1.023 ms
Execution time: 2569.791 ms

По первому пользователю с ид 140777 писем больше 31920, по второму с ид 101678 меньше 31620 писем. Но второй запрос идет по Seq Scan

...

Рейтинг:

0 / 0

03.08.2020, 15:48:19

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986152

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Павел Лузанов

kliff

Select t2.* FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t1.id = 5358;

всего 40млн записей, select n_distinct from pg_stats показывает 8500

...

Рейтинг:

0 / 0

03.08.2020, 15:50:00

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986156

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Павел Лузанов

kliff

Select t2.* FROM t1 JOIN t2 on t2.id=t1.t2_id WHERE t1.id = 5358;

да Вы правы, для последнего примера записей в messages больше 6млн, select n_distinct from pg_stats выдает '-1'

...

Рейтинг:

0 / 0

03.08.2020, 15:54:05

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986160

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

https://hdb.docs.pivotal.io/210/hawq/reference/catalog/pg_stats.html

Написано, что для столбца с уникальным ключом n_distinct = -1. То есть это нормально

...

Рейтинг:

0 / 0

03.08.2020, 15:59:47

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986169

Melkij

Участник

Откуда: Санкт-Петербург

Сообщения: 1 447

Рейтинг: 0 / 0

Как видно по explain - у планировщика вполне корректная картина мира о распределении данных, разница не на порядки.
На seqscan переключается потому что, согласно настройкам стоимости операций, план с seqscan получается дешевле. См. заодно effective_cache_size

Кстати, postgresql 12.5 ещё не существует.

...

Рейтинг:

0 / 0

03.08.2020, 16:11:34

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986186

Павел Лузанов

Участник

Сообщения: 866

Рейтинг: 0 / 0

kliff

всего 40млн записей, select n_distinct from pg_stats показывает 8500

Разница на несколько порядков.

Так всё-таки, можете поменять условие запроса с t1.id = 5358 на t2.id = 5358;
?

...

Рейтинг:

0 / 0

03.08.2020, 16:55:15

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986191

Павел Лузанов

Участник

Сообщения: 866

Рейтинг: 0 / 0

Проверьте нет ли тех id с которыми запрос работвет быстро в этом списке:
select most_common_vals from pg_stats where tablename = 't1' and attname = 'id';

...

Рейтинг:

0 / 0

03.08.2020, 17:00:02

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986201

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Melkij

Да, извиняюсь. 12.3 стоит.

То есть в одном случае id в таблице message в одной или нескольких секциях индекса, а во втором случае id так разбросаны, что нет смысла юзать индекс? Что можно предпринять в таком случае? - Добавить какой то доп. признак в виде даты например?

...

Рейтинг:

0 / 0

03.08.2020, 17:32:03

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986202

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Павел Лузанов

kliff

всего 40млн записей, select n_distinct from pg_stats показывает 8500

Разница на несколько порядков.

Так всё-таки, можете поменять условие запроса с t1.id = 5358 на t2.id = 5358;
?

Тогда запрос потеряет смысл. t2.id мне неизвестны, они получаются из t1

...

Рейтинг:

0 / 0

03.08.2020, 17:33:15

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986206

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Павел Лузанов

есть и те, с которыми быстро и с которыми медленно

...

Рейтинг:

0 / 0

03.08.2020, 17:44:42

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986222

Maxim Boguk

Участник

Откуда: Melbourne, Австралия

Сообщения: 5 148

Рейтинг: 0 / 0

kliff

30500 от 6ти млн это же меньше 1% , селективность для использования индекса хорошая, почему тогда оптимизатор выбирает seq_sqan? В какую сторону копать? Подбирать настройки сервера?

Заранее спасибо.

Покажите ваши настройки на предмет
random_page_cost
seq_page_cost
effective_cache_size

потому что цена с т.з. планировщика
explain(analyze, buffers)
для u.user_id = 140777 и для u.user_id = 101678
фактически одинакова
статистика одинакова (и корректна)
а скорость hash join сильно ниже (точнее скорость nested loop сильно выше чем база ожидает).

из этого следует что у вас настройки базы неверные относительно реальности... отсюда и неверные планы.
Ровно тоже обсуждалось парой тем назад под заголовком "Планировщик выбирает seq_scan" на этом же форуме.

--
Maxim Boguk
лучшая поддержка PostgreSQL: dataegret.ru

...

Рейтинг:

0 / 0

03.08.2020, 19:07:39

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986236

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Maxim Boguk

kliff

У меня очевидно стоят умолчательные настройки, руками их после установки СУБД никто не менял
#seq_page_cost = 1.0 # measured on an arbitrary scale
#random_page_cost = 4.0 # same scale as above
#cpu_tuple_cost = 0.01 # same scale as above
#cpu_index_tuple_cost = 0.005 # same scale as above
#cpu_operator_cost = 0.0025 # same scale as above
#effective_cache_size = 4GB

То есть они закомментированы.

Да, ту тему я читал. Пробовал менять настройки.
Единственное, может я неверно их менял, потому что никакого результата не получил.

То есть я в одной сессии выполнял
SET random_page_cost = val;
SET seq_page_cost = val;
explain(analyze, buffers)select...

Но я не нашел, как посмотреть текущие параметры сессии, установились ли эти значения таким образом.

...

Рейтинг:

0 / 0

03.08.2020, 19:49:24

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986238

Павел Лузанов

Участник

Сообщения: 866

Рейтинг: 0 / 0

kliffТогда запрос потеряет смысл. t2.id мне неизвестны, они получаются из t1
Это я не внимательно на исходный вопрос посмотрел. Думал, что условие соединения t1.id = t2.id, поэтому замена выглядела эквивалентной.

Посмотрел внимательнее. Вы уверены, что ниже приведен план именно этого запроса?

kliff

explain(analyze, buffers)select
m.*
from messages m
join messages_users u on u.mess_id = m.id
where u.user_id = 140777;

Nested Loop (cost=1.00..253328.46 rows=29696 width=44) (actual time=0.078..180.555 rows=31920 loops=1)
Buffers: shared hit=143395
-> Index Scan using messages_users_user_id_idx on messages_users u (cost=0.56..72884.30 rows=29696 width=4) (actual time=0.061..80.524 rows=31920 loops=1)
Index Cond: (user_id = 140777)
Buffers: shared hit=15548
-> Index Scan using pk_rep_messages on rep_messages m (cost=0.43..6.07 rows=1 width=44) (actual time=0.003..0.003 rows=1 loops=31920)
Index Cond: (id = u.mess_id)
Buffers: shared hit=127847
Planning time: 1.352 ms
Execution time: 182.120 ms

...

Рейтинг:

0 / 0

03.08.2020, 19:53:01

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986247

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Павел Лузанов

kliffТогда запрос потеряет смысл. t2.id мне неизвестны, они получаются из t1

Это я не внимательно на исходный вопрос посмотрел. Думал, что условие соединения t1.id = t2.id, поэтому замена выглядела эквивалентной.

Посмотрел внимательнее. Вы уверены, что ниже приведен план именно этого запроса?

kliff

explain(analyze, buffers)select
m.*
from messages m
join messages_users u on u.mess_id = m.id
where u.user_id = 140777;

Nested Loop (cost=1.00..253328.46 rows=29696 width=44) (actual time=0.078..180.555 rows=31920 loops=1)
Buffers: shared hit=143395
-> Index Scan using messages_users_user_id_idx on messages_users u (cost=0.56..72884.30 rows=29696 width=4) (actual time=0.061..80.524 rows=31920 loops=1)
Index Cond: (user_id = 140777)
Buffers: shared hit=15548
-> Index Scan using pk_messages on messages m (cost=0.43..6.07 rows=1 width=44) (actual time=0.003..0.003 rows=1 loops=31920)
Index Cond: (id = u.mess_id)
Buffers: shared hit=127847
Planning time: 1.352 ms
Execution time: 182.120 ms

Хотел укоротить названия, когда тут текст размещал. Да точно это он. rep_ хотел убрать

...

Рейтинг:

0 / 0

03.08.2020, 20:55:23

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986264

Maxim Boguk

Участник

Откуда: Melbourne, Австралия

Сообщения: 5 148

Рейтинг: 0 / 0

kliff

Maxim Boguk

пропущено...

Покажите ваши настройки на предмет
random_page_cost
seq_page_cost
effective_cache_size

потому что цена с т.з. планировщика
explain(analyze, buffers)
для u.user_id = 140777 и для u.user_id = 101678
фактически одинакова
статистика одинакова (и корректна)
а скорость hash join сильно ниже (точнее скорость nested loop сильно выше чем база ожидает).

из этого следует что у вас настройки базы неверные относительно реальности... отсюда и неверные планы.
Ровно тоже обсуждалось парой тем назад под заголовком "Планировщик выбирает seq_scan" на этом же форуме.

--
Maxim Boguk
лучшая поддержка PostgreSQL: dataegret.ru

show random_page_cost; и тд
если вы через pgbouncer работаете с базой то set работать не будут (причем непредсказуемым образом не будут).
при таких настройках не удивительно что база seq scan считает быстрее... это параметры под кофемолку с старым механическим hdd.
по тому что я вижу у вас
я бы поставил

seq_page_cost = 0.1 # measured on an arbitrary scale
random_page_cost = 0.11 # same scale as above
effective_cache_size = 90% от памяти на сервере если он выделенный под базу

и дальше уже смотреть... 99% что поможет конкретно с этими запросами

...

Рейтинг:

0 / 0

03.08.2020, 23:07:59

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986290

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Maxim Boguk

kliff

пропущено...

У меня очевидно стоят умолчательные настройки, руками их после установки СУБД никто не менял
#seq_page_cost = 1.0 # measured on an arbitrary scale
#random_page_cost = 4.0 # same scale as above
#cpu_tuple_cost = 0.01 # same scale as above
#cpu_index_tuple_cost = 0.005 # same scale as above
#cpu_operator_cost = 0.0025 # same scale as above
#effective_cache_size = 4GB

То есть они закомментированы.

Да, ту тему я читал. Пробовал менять настройки.
Единственное, может я неверно их менял, потому что никакого результата не получил.

То есть я в одной сессии выполнял
SET random_page_cost = val;
SET seq_page_cost = val;
explain(analyze, buffers)select...

Но я не нашел, как посмотреть текущие параметры сессии, установились ли эти значения таким образом.

Огромное спасибо, помогаете уже не первый раз. Буду читать доку, разбираться в этих настройках дальше.
При данных настройках план запроса для 101678 стал идентичным с 140777. Начал использовать индекс.

Не очень понятно только каким образом тогда вести разработку на постгрис. Разработка обычно ведется на тесте, тест в большинстве случаев на порядок слабее по ресурсам, чем продуктив. Чтобы выжать максимум скорости, тестовый должен быть идентичен боевому с соответствующими настройками СУБД иначе после переноса запросы будут работать не так, как планировалось.

Разница конечно очень существенная, раньше по пользователю с 400тыс писем выборка длилась 8 секунд, теперь 0.7 секунды. В районе 450тыс писем, запрос начинает работать без индекса, но это уже решаемый вопрос.

...

Рейтинг:

0 / 0

04.08.2020, 07:34:09

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986300

Maxim Boguk

Участник

Откуда: Melbourne, Австралия

Сообщения: 5 148

Рейтинг: 0 / 0

kliff

Не очень понятно только каким образом тогда вести разработку на постгрис. Разработка обычно ведется на тесте, тест в большинстве случаев на порядок слабее по ресурсам, чем продуктив. Чтобы выжать максимум скорости, тестовый должен быть идентичен боевому с соответствующими настройками СУБД иначе после переноса запросы будут работать не так, как планировалось.

Разница конечно очень существенная, раньше по пользователю с 400тыс писем выборка длилась 8 секунд, теперь 0.7 секунды. В районе 450тыс писем, запрос начинает работать без индекса, но это уже решаемый вопрос.

логично что если у вас стоит вопрос тестирования производительности то тестировать надо на оборудовании и настройках таких же как в production.
Это впрочем любой базы касается.
И даже это ничего не гарантирует, надо постоянно заниматься анализом того что и как работает на production.

...

Рейтинг:

0 / 0

04.08.2020, 08:55:26

| Ответить | Цитировать | Написать

seq_scan при подходящей для индекса селективности

#39986581

kliff

Участник

Сообщения: 440

Рейтинг: 0 / 0

Maxim Boguk, Спасибо, как всегда все четко и по делу.

...

Рейтинг:

0 / 0

05.08.2020, 08:45:07

| Ответить | Цитировать | Написать

23 сообщений из 23, страница 1 из 1

Форумы / PostgreSQL [игнор отключен] [закрыт для гостей] / seq_scan при подходящей для индекса селективности

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=53&fpage=24&tid=1994545]:	0ms
get settings:	9ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	34ms
get topic data:	8ms
get forum data:	2ms
get page messages:	64ms
get tp. blocked users:	2ms
others:	225ms

total:	364ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы