Как сравни две гиганские таблицы на двух серверах? / PostgreSQL

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / PostgreSQL [игнор отключен] [закрыт для гостей] / Как сравни две гиганские таблицы на двух серверах?

9 сообщений из 9, страница 1 из 1

Как сравни две гиганские таблицы на двух серверах?

#39813147

Уткъ

Гость

Добрый день, есть два сервера.

И в каждом есть огроменная таблица (300+ Гб).

Надо как-то сравнить эти две траблицы по одному текстовому полю (по полю есть индекс).

Подскажите как это сделать?

Запрос с дб_линком выполняется бесконечно долго:

Код: sql

1.
2.
3.

SELECT id_text
FROM данные_из_дб_линк 
WHERE  id_text NOT IN (SELECT id_text FROM таблица_локальная)

...

Рейтинг:

0 / 0

14.05.2019, 17:31

| Ответить | Цитировать | Написать

Как сравни две гиганские таблицы на двух серверах?

#39813218

Ролг Хупин

Участник

Откуда: Чебаркуль

Сообщения: 4 817

Рейтинг: 0 / 0

Ну, так, если таблмцы гиганские нафига ж тогда делать такое

Код: sql

1.
2.
3.

SELECT id_text
FROM данные_из_дб_линк 
WHERE  id_text NOT IN (SELECT id_text FROM таблица_локальная)

Можно просто посчитать к-во , да и вместо NOT IN использовать EXISTS, например

...

Рейтинг:

0 / 0

14.05.2019, 20:59

| Ответить | Цитировать | Написать

Как сравни две гиганские таблицы на двух серверах?

#39813915

varlamovvp

Участник

Откуда: Moscow

Сообщения: 294

Рейтинг: 0 / 0

Уткъ,

hash посчитать?
ИМХО основные тормоза при передаче данных по сети, поэтому надо как-то заставить запросы по таблицам выполняться каждый на своем серваке.
Может быть еще перетащить файл индекса и ( не уверен что возможно ) сравнить сожержимое индексов какой-то утилиткой

...

Рейтинг:

0 / 0

16.05.2019, 10:49

| Ответить | Цитировать | Написать

Как сравни две гиганские таблицы на двух серверах?

#39813981

Maxim Boguk

Участник

Откуда: Melbourne, Австралия

Сообщения: 5 148

Рейтинг: 0 / 0

УткъДобрый день, есть два сервера.

И в каждом есть огроменная таблица (300+ Гб).

Надо как-то сравнить эти две траблицы по одному текстовому полю (по полю есть индекс).

Подскажите как это сделать?

Запрос с дб_линком выполняется бесконечно долго:

Код: sql

1.
2.
3.

SELECT id_text
FROM данные_из_дб_линк 
WHERE  id_text NOT IN (SELECT id_text FROM таблица_локальная)

А вообще вы бы планы показали чтоли.
И 20 раз уже писалось (и кажется вам тоже что not in в postresql не используют кроме случая not in (1,2,3) и подобных.
Тем более что 300gb через db_link не пролезет нормально никогда.

1)вам надо fdw
2)какая толщина канала между серверами? (ожидайте около 600gb траффика)
3)переделайте запрос на fdw + not exists и выдайте очень много work_mem на том сервере где запрос выполняется (гигабайт 4-16 если есть возможность)
4)в любом случае если у вас сетка не 10+gbit - это будут часы (а то и сутки).

Костыльный метод - dump таблицы на одном сервере восстановление на другом под другим названием в туже базу где сверять и сверить локальным запросом (если сеть медленная это может быть единственным рабочим вариантом).

...

Рейтинг:

0 / 0

16.05.2019, 12:44

| Ответить | Цитировать | Написать

Как сравни две гиганские таблицы на двух серверах?

#39813997

qwwq

Участник

Сообщения: 2 880

Рейтинг: 0 / 0

Maxim Boguk,

fdw нефига не серебрянная пуля. я как то проверил create table a as select * from fdw_a; -- по одной оно записи фетчит.
пайп

Код: plaintext

> psql ... copy ... 2 stdout |psql... copy ... from stdin

кроет его порядков на ..дцать при суб-террабайтах.

тут тоже можно попытаться быстро втянуть с одной стороны на сторону исполнения :
~

Код: sql

1.
2.

with u(id) as (select unnest( (select a from dblink(conn, 'SELECT array(SELECT id from fdw_tab)') as t (a bigint[]) ) ) )
select id  from u where not exists (select 1 from local_tab l where l.id = u.id)

, вот только от попыток хеш--джойниться проверить. а то будет больно

...

Рейтинг:

0 / 0

16.05.2019, 13:05

| Ответить | Цитировать | Написать

Как сравни две гиганские таблицы на двух серверах?

#39814465

kolobok0

Участник

Сообщения: 1 815

Рейтинг: 0 / 0

Уткъ,

может считать хэш от поля и уже его юзать? вероятно именно только его можно гнать по сетке...
либо как тут уже прозвучало - перегон всей базы и локально уже компарэ...

(круглый)

...

Рейтинг:

0 / 0

17.05.2019, 10:37

| Ответить | Цитировать | Написать

Как сравни две гиганские таблицы на двух серверах?

#39814478

982183

Участник

Откуда: VL

Сообщения: 2 213

Рейтинг: 0 / 0

Под "сравнить" вы понимаете "найти значения в своей таблице, отсутствующие в удаленной"?

...

Рейтинг:

0 / 0

17.05.2019, 10:51

| Ответить | Цитировать | Написать

Как сравни две гиганские таблицы на двух серверах?

#39814501

qwwq

Участник

Сообщения: 2 880

Рейтинг: 0 / 0

поправка:
qwwqя как то проверил create table a as select * from fdw_a; -- по одной оно записи фетчит.

припоминаю, что соврал. гнал инсертом селект всего с фдв в только-что созданную пустую с индексами. задача на много дней и недель. т.к. на удаленном идёт фетч по одной, а на целевом -- вставка по одной с перестроением индексов после каждого фетча. невзлетело

...

Рейтинг:

0 / 0

17.05.2019, 11:28

| Ответить | Цитировать | Написать

Как сравни две гиганские таблицы на двух серверах?

#39814720

Maxim Boguk

Участник

Откуда: Melbourne, Австралия

Сообщения: 5 148

Рейтинг: 0 / 0

qwwqпоправка:
qwwqя как то проверил create table a as select * from fdw_a; -- по одной оно записи фетчит.

припоминаю, что соврал. гнал инсертом селект всего с фдв в только-что созданную пустую с индексами. задача на много дней и недель. т.к. на удаленном идёт фетч по одной, а на целевом -- вставка по одной с перестроением индексов после каждого фетча. невзлетело

Странно что на удаленном сервере fetch по одной идет.
По умолчанию - блоками по 100... если быстрая сеть я бы для такой задачи поставил бы блоки в 10000-100000.
Настройки см https://www.postgresql.org/docs/11/postgres-fdw.html
в части
fetch_size
This option specifies the number of rows postgres_fdw should get in each fetch operation. It can be specified for a foreign table or a foreign server. The option specified on a table overrides an option specified for the server. The default is 100.
Может вы для какой то другой задачи поставили в настройках сервера или таблицы размер fetch_size в 1?

Но поскольку limit на сторону удаленную сторону не пробрасывается - там начинаются проблемы наоборот - а именно лишние записи могут по сети ездить.

...

Рейтинг:

0 / 0

17.05.2019, 16:14

| Ответить | Цитировать | Написать

9 сообщений из 9, страница 1 из 1

Форумы / PostgreSQL [игнор отключен] [закрыт для гостей] / Как сравни две гиганские таблицы на двух серверах?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=53&msg=39813997&tid=1995202]:	0ms
get settings:	10ms
get forum list:	15ms
check forum access:	3ms
check topic access:	3ms
track hit:	134ms
get topic data:	9ms
get forum data:	2ms
get page messages:	46ms
get tp. blocked users:	1ms
others:	215ms

total:	438ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы