Гость
Форумы / Тестирование и QA [игнор отключен] [закрыт для гостей] / сравнение двух наборов данных / 5 сообщений из 5, страница 1 из 1
30.01.2012, 17:08
    #37638637
Sepultura_666
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
сравнение двух наборов данных
Добрый день
У меня есть тулза написанная на pl/sql, которая сравнивает два набора данных (около десятка таблиц)
Т.е. у нас есть таблица, заполненная данными, которые прошли через логику какой то ETL, потом мы изменияем логику обработки данных (заливаем новый код в базу) , эта таблица снова наполняется данными, обработанными на новом коде.
Входные данные одни и теже. Эта тулза сравнивает две эти таблицы (до и после) и выдает отчет в виде вьюхе в которой перечислены все расхождения и ссылки на записи в таблицах где они найдены.
На выходе мы имеем большое количество расхождений в результатах сравнения. Они связаны с тем, что
1. Специфика работы ETL такова, что некоторые поля могут заполнятся не четко - т.е. из некоторого набора значений, неоднозначно
2. Баги

Моя задача найти расхождения, которые могут возникнуть только в результате некорректной работы логики, т.е. баги. Все остальные расхождения я должен пропустить.

Теперь проблема - проблема отфильтровки багов от всех остальных расхождений в том, что в таблицах содержится много строк (10 млн)
У меня просто нет столько времени, чтобы успеть пересмотреть все расхождения.

Вопрос - как с этим бороться. Ответ - уменьшить количество данных уже в работе, но пока маловероятен. Какие еще есть способы? Может быть есть какие то статистические методы очистить результат? Короче любые оригинальные идеи - хелп!
...
Рейтинг: 0 / 0
01.02.2012, 13:24
    #37641760
Konstantin Permyakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
сравнение двух наборов данных
Sepultura_666,

оригинальная идея truncate на оба датасета и сказать, что они идентичны.
А вообще в описанной вами формулировке вам нужно отделить расхождения вызванные пунктом 1 от тех, что вызваны пунктом 2. Как вариант на том же PL/SQL написать тулзу которая сможет это сделать автоматически. Но тут дьявол в деталях. А но общий вопрос- общий ответ .
...
Рейтинг: 0 / 0
01.02.2012, 14:13
    #37641899
Sepultura_666
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
сравнение двух наборов данных
да вопрос как раз в том, как отделить 1 от 2.
как этот шум отчистить
...
Рейтинг: 0 / 0
01.02.2012, 15:49
    #37642114
Konstantin Permyakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
сравнение двух наборов данных
Не имея входных и выходных данных, а также правил вашей ETL обсуждать что такое шум бессмысленно. Максимум что Вам ответят вызвать функцию CleanNoise()
Вам нужно сначала определиться с этим, а как потом автоматизировать средствами того же PL/SQL можно спросить в профильном форуме.
...
Рейтинг: 0 / 0
01.02.2012, 18:34
    #37642574
Sepultura_666
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
сравнение двух наборов данных
конечно бессмысленно. зато комментить ерунду осмысллено
...
Рейтинг: 0 / 0
Форумы / Тестирование и QA [игнор отключен] [закрыт для гостей] / сравнение двух наборов данных / 5 сообщений из 5, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]