Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM? / IBM DB2, WebSphere, IMS, U2

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / IBM DB2, WebSphere, IMS, U2 [игнор отключен] [закрыт для гостей] / Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

21 сообщений из 21, страница 1 из 1

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35714561

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

Задача
Требуется периодически синхронизировать данные в двух больших таблицах, расположенных на разных SQL-серверах. Таблица-источник расположена на SQL-сервере IBM DB2, таблица-приёмник – на MS SQL 2000. В момент каждой синхронизации отличия между таблицами весьма небольшие. Необходимо провести синхронизацию, не перекачивая полностью все данные. Узким местом является именно передача данных. Оба SQL-сервера работают достаточно шустро. Таблица-источник не имеет уникального ключа/индекса, изменить её структуру нельзя. Изменения в данных источника могут касаться любого поля таблицы, предсказать их заранее также практически невозможно.

Предполагаемый способ решения
Синхронизация производится путём применения SQL-запроса на MS SQL 2000, содержащего обращение к связанному SQL-серверу DB2. Данные в запросе к таблице могут быть сгруппированы по какому-нибудь полю, например - дате. Требуется вычислить хэш для каждого подмножества строк, относящегося к каждой дате на источнике и приёмнике и сравнить хэши. Если хэши различаются – то обновляются только записи, касающиеся только этой даты.

Проблема
Как вычислить качественный агрегатный хэш средствами стандартного SQL так, чтобы его значения для одинаковых входных подмножеств совпадали на DB2 и MS SQL? Пока я использую простое суммирование функцией SUM (с переполнением) для некоторых числовых полей. Это работает (и притом довольно быстро), хотя и не выглядит в моих глазах достаточно надёжным.

Для страховки я собираюсь после синхронизации выполнять в обеих таблицах суммирование по одному из числовых полей и, если суммы не сойдутся, – выполнять полное копирование.

Дополнение
Я знаю о семействе функций CHECKSUM_AGG, CHECKSUM и BINARY_CHECKSUM на MS SQL 2000. К сожалению, мне не известны аналоги в DB2, да и само их качество (в частности CHECKSUM_AGG) представляется недостаточным. Слишком часто возвращаются одинаковые хэши для разных входных множеств.

...

Рейтинг:

0 / 0

15.12.2008, 13:49

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716054

xze32

Гость

1) Данные параллельно меняются в 2 системах?
2) Если нет то зачем городить огород.
например в DB2 есть таблица X
настраиваем репликацию из таблицы X в таблицу XR. Реплицируем только измененные данные.
периодически забираем из таблицы XR данные в MS-SQL X
после того как забрали данные удаляем все из таблицы XR

...

Рейтинг:

0 / 0

16.12.2008, 08:23

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716155

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

Данные меняются только в одной таблице-источнике на сервере DB2. Ничего настроить или тем более стирать на сервере DB2 нельзя. Можно только читать.

...

Рейтинг:

0 / 0

16.12.2008, 09:31

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716190

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

Весь огород городится для того, чтобы не перекачивать все данные из таблицы-источника при синхронизации.
Для того чтобы определить изменившееся подмножество(а) в источнике считаем по ним хэши и сравниваем на источнике и приёмнике.
Вопрос был об агрегатной хэш-функции реализуемой стандартными средствами SQL DB2 непосредственно в строке запроса. Без применения пользовательских переменных, функций и процедур.
Далее. Аналог этой хэш-функции должен быть реализуем на MS SQL 2000. Какими угодно средствами - COM, T-SQL, расширенные ХП и т.п.

...

Рейтинг:

0 / 0

16.12.2008, 09:48

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716203

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

xze321) Данные параллельно меняются в 2 системах?
2) Если нет то зачем городить огород.
например в DB2 есть таблица X
настраиваем репликацию из таблицы X в таблицу XR. Реплицируем только измененные данные.
периодически забираем из таблицы XR данные в MS-SQL X
после того как забрали данные удаляем все из таблицы XR
Предложенный Вами вариант конечно здравый, спасибо за ответ. К сожалению, он неприменим в настоящее время в моей ситуации.

...

Рейтинг:

0 / 0

16.12.2008, 09:53

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716414

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

Кстати, будет ли отслеживаться при репликации изменений удаление записей в таблице-источнике? Каким образом?
Количество записей в таблице-источнике не фиксировано. Страрые удаляются, новые добавляются.

...

Рейтинг:

0 / 0

16.12.2008, 10:57

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716851

gals

Гость

Ghola
Вопрос был об агрегатной хэш-функции реализуемой стандартными средствами SQL DB2 непосредственно в строке запроса. Без применения пользовательских переменных, функций и процедур.
Далее. Аналог этой хэш-функции должен быть реализуем на MS SQL 2000. Какими угодно средствами - COM, T-SQL, расширенные ХП и т.п.
Интересно получается. На DB2 ничего своего делать нельзя, а на MS SQL можно.
Посмотрите статистические функции, типа AVG, STDDEV, CORRELATION.

...

Рейтинг:

0 / 0

16.12.2008, 12:41

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716892

zz..zz..zz

Гость

А поймать изменения capture-ом в CD-таблицы?

...

Рейтинг:

0 / 0

16.12.2008, 12:54

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716915

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

gals, спасибо за ответ!
galsGhola
Вопрос был об агрегатной хэш-функции реализуемой стандартными средствами SQL DB2 непосредственно в строке запроса. Без применения пользовательских переменных, функций и процедур.
Далее. Аналог этой хэш-функции должен быть реализуем на MS SQL 2000. Какими угодно средствами - COM, T-SQL, расширенные ХП и т.п.
Интересно получается. На DB2 ничего своего делать нельзя, а на MS SQL можно.
Угу. Именно так.
galsПосмотрите статистические функции, типа AVG, STDDEV, CORRELATION.
Смотрел, они возвращают значения с плавающей точкой, которые, в отличие от SUM, часто не совпадают для MS SQL и DB2, при одинаковых входных множествах. Значения полей в таблице-источнике типов CHARACTER, NUMERIC и DECIMAL. Т.е. пригодные для целочисленной арифметики.

...

Рейтинг:

0 / 0

16.12.2008, 12:59

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716919

zz..zz..zz..zz

Гость

тогда хэш будет select count(*) where data='data', из CD-таблицы. если count(*)
и select sum(0) from что - нибудь на Microsoft sql server

...

Рейтинг:

0 / 0

16.12.2008, 13:00

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716930

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

zz..zz..zzА поймать изменения capture-ом в CD-таблицы?
Поясните свою мысль, плиз. Мне это непонятно.

...

Рейтинг:

0 / 0

16.12.2008, 13:02

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716953

zz..zz..zz..zz

Гость

Gholazz..zz..zzА поймать изменения capture-ом в CD-таблицы?
Поясните свою мысль, плиз. Мне это непонятно.

ну есть же стандартный механизм в репликации в DB2, он работает примерно так

1 изменения пишутся в transaction log
2 программа capture читает transaction log и пишит изменения в так называемые CD-таблицы
3 программа apply читает CD-таблицы и применяет изменения где-нибудь на другой базе

потом CD-таблицы чистятся.

ничто же не мешает брать изменения прямо из CD-таблиц, а потом самому их чистить.
вот если в СD-таблицах что-то есть, значит это и нужно применять на Microsoft SQL Server

...

Рейтинг:

0 / 0

16.12.2008, 13:08

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716954

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

zz..zz..zz..zzтогда хэш будет select count(*) where data='data', из CD-таблицы. если count(*)
и select sum(0) from что - нибудь на Microsoft sql server
Скажите пожалуйста, что такое "CD-таблица"? Количество записей, относящихся к каждой дате я и так считаю и сравниваю, но считаю это недостаточным.

...

Рейтинг:

0 / 0

16.12.2008, 13:08

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716970

zz..zz..zz..zz

Гость

Gholazz..zz..zz..zzтогда хэш будет select count(*) where data='data', из CD-таблицы. если count(*)
и select sum(0) from что - нибудь на Microsoft sql server
Скажите пожалуйста, что такое "CD-таблица"? Количество записей, относящихся к каждой дате я и так считаю и сравниваю, но считаю это недостаточным.

это специалная таблица которая используется механизмом репликации DB2

...

Рейтинг:

0 / 0

16.12.2008, 13:12

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35716987

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

zz..zz..zz..zzGholazz..zz..zzА поймать изменения capture-ом в CD-таблицы?
Поясните свою мысль, плиз. Мне это непонятно.

ну есть же стандартный механизм в репликации в DB2, он работает примерно так

1 изменения пишутся в transaction log
2 программа capture читает transaction log и пишит изменения в так называемые CD-таблицы
3 программа apply читает CD-таблицы и применяет изменения где-нибудь на другой базе

потом CD-таблицы чистятся.

ничто же не мешает брать изменения прямо из CD-таблиц, а потом самому их чистить.
вот если в СD-таблицах что-то есть, значит это и нужно применять на Microsoft SQL Server
Спасибо за разъяснения, уже понятнее. Но не вполне. :) Уточните, это справедливо для какой платформы? (ОС). К тому же, Вы, вероятно, имеете в виду так или иначе механизм репликации, не так ли? Боюсь, что у нас он не настроен. И не будет настроен в обозримом будущем. Позволяет ли отслеживать такой механизм добавление и, самое главное, удаление, а не только изменение существующих записей в таблице-источнике?

...

Рейтинг:

0 / 0

16.12.2008, 13:17

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35717329

Mark Barinstein

Гость

Ghola,

Триггеры на db2-таблицу можно повесить, которые смогут в вашу служебную таблицу писАть?

...

Рейтинг:

0 / 0

16.12.2008, 14:38

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35717373

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

Mark BarinsteinGhola,

Триггеры на db2-таблицу можно повесить, которые смогут в вашу служебную таблицу писАть?Увы-увы... Нельзя. На DB2 я могу только читать. Ни создавать триггеры ни процедуры ни функции. Ни переменные. К тому же триггеры понизят производительность БД при изменениях в таблице-источнике, а это крайне неприветствуется. Хотя замедление должно быть несущественно...

...

Рейтинг:

0 / 0

16.12.2008, 14:50

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35717896

zz..zz..zz..zz

Гость

Gholazz..zz..zz..zzGholazz..zz..zzА поймать изменения capture-ом в CD-таблицы?
Поясните свою мысль, плиз. Мне это непонятно.

ну есть же стандартный механизм в репликации в DB2, он работает примерно так

1 изменения пишутся в transaction log
2 программа capture читает transaction log и пишит изменения в так называемые CD-таблицы
3 программа apply читает CD-таблицы и применяет изменения где-нибудь на другой базе

потом CD-таблицы чистятся.

ничто же не мешает брать изменения прямо из CD-таблиц, а потом самому их чистить.
вот если в СD-таблицах что-то есть, значит это и нужно применять на Microsoft SQL Server
Спасибо за разъяснения, уже понятнее. Но не вполне. :) Уточните, это справедливо для какой платформы? (ОС). К тому же, Вы, вероятно, имеете в виду так или иначе механизм репликации, не так ли? Боюсь, что у нас он не настроен. И не будет настроен в обозримом будущем. Позволяет ли отслеживать такой механизм добавление и, самое главное, удаление, а не только изменение существующих записей в таблице-источнике?

справедливо для любой платформы. сам делал для windows z/OS и аэски. ну да там задействован механизм репликации. но раз он не настроен то увы.... и конечно он позволяет отслеживать добавление и самое главное удаление... и изменение тоже и даже первичного ключа...

...

Рейтинг:

0 / 0

16.12.2008, 17:26

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35718011

Mark Barinstein

Гость

Ghola[quot Mark Barinstein]Увы-увы... Нельзя. На DB2 я могу только читать. Ни создавать триггеры ни процедуры ни функции. Ни переменные. К тому же триггеры понизят производительность БД при изменениях в таблице-источнике, а это крайне неприветствуется. Хотя замедление должно быть несущественно...Понизят что? Производительность???
В вашем тяжёлом случае, особенно с большой таблицей, нельзя говорить ни о какой производительности.
Использование триггеров здесь будет самым производительным решением.

...

Рейтинг:

0 / 0

16.12.2008, 17:52

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35720200

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

Mark Barinstein, Большое спасибо за Ваш совет! :) А экспрессия ни к чему. Впрочем, как я уже говорил, триггеры имеют для меня в данном контексте чисто академическое значение.

Возвращаясь к теме топика
При использовании в качестве агрегатного хэша функции SUM, в MS SQL 2000 возможно переполнение, которое приведёт к ошибке и, как следствие, - к невозможности синхронизации.

Опытным путём удалось выяснить, что в MS SQL 2000 функция SUM от целочисленного аргумента возвращает результат типа NUMERIC(38,0). (челое число с 38-ю значащими цифрами, максимальная константа 10^38 - 1)

Переполнение результата SUM в MS SQL наступает, если результат функции SUM превышает 10^39 - 1, см:

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.

DECLARE @t table(d DEC( 38 , 0 ))

insert @t VALUES( 9999999999999999999999999999999999999 ) -- 1-я строка, макс. константа типа NUMERIC 
insert @t VALUES( 9999999999999999999999999999999999999 ) -- 2
insert @t VALUES( 9999999999999999999999999999999999999 ) -- 3
insert @t VALUES( 9999999999999999999999999999999999999 ) -- 4
insert @t VALUES( 9999999999999999999999999999999999999 ) -- 5
insert @t VALUES( 9999999999999999999999999999999999999 ) -- 6
insert @t VALUES( 9999999999999999999999999999999999999 ) -- 7
insert @t VALUES( 9999999999999999999999999999999999999 ) -- 8
insert @t VALUES( 9999999999999999999999999999999999999 ) -- 9
insert @t VALUES( 9999999999999999999999999999999999999 ) -- 10
insert @t VALUES( 10 )                                                         


SELECT SUM(d) FROM @t

Судя по документации к IBM DB2 максимальная константа NUMERIC составляет там 10^31 -1, Эксперимент показал, что в случае переполнения результата функции SUM СУБД DB2 возвращает NULL (а не ошибку).

В общем, описанный мной в первом постинге способ решения задачи далеко не идеален, однако в конкретной ситуации, похоже, будет для меня единственно возможным. Судя по характеру данных, до переполнения мне очень далеко. Однако предполагавшееся после синхронизации контрольное суммирование по всей таблице я, пожалуй, заменю просто на подсчёт полей.

...

Рейтинг:

0 / 0

17.12.2008, 15:19

| Ответить | Цитировать | Написать

Агрегатная хэш-функция средствами стандартного SQL. Есть ли варианты, лучшие, чем SUM?

#35720215

Ghola

Участник

Откуда: из капусты

Сообщения: 273

Рейтинг: 0 / 0

*(Сорри разумеется не подсчёт полей, а подсчёт и сравнение количества записей в источнике и приёмнике

...

Рейтинг:

0 / 0

17.12.2008, 15:23

| Ответить | Цитировать | Написать

21 сообщений из 21, страница 1 из 1

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=43&msg=35716851&tid=1603512]:	0ms
get settings:	7ms
get forum list:	14ms
check forum access:	2ms
check topic access:	2ms
track hit:	26ms
get topic data:	8ms
get forum data:	2ms
get page messages:	54ms
get tp. blocked users:	1ms
others:	207ms

total:	323ms