powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Инструмент для настройки сопоставления строк
24 сообщений из 24, страница 1 из 1
Инструмент для настройки сопоставления строк
    #33000967
Тужибаев Тимур
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Уважаемые! У меня проблема: есть разные источники однородных и загрязненных данных, необходимо сведение их в одну таблицу. Насколько я знаю эта процедура называется сопоставление. Порекомендуйте Case инструмент для эфективного решения этой проблемы.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33000992
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Oracle Warehouse Builder :))

А в чем характер "загрязнений"?
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33001021
Тужибаев Тимур
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторOracle Warehouse Builder :))

А в чем характер "загрязнений"?

Не совсем понял в чем юмор, ну да ладно :)

Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.)

Базы трех типов: Excel, Access, SQLServer
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33001381
Тужибаев Тимур
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Cognos DecisionStream обладает таким функционалом?
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33001392
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Тужибаев Тимур авторOracle Warehouse Builder :))

А в чем характер "загрязнений"?

Не совсем понял в чем юмор, ну да ладно :)

Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.)

Базы трех типов: Excel, Access, SQLServerНу я просто всегда советую OWB. Этот юмор понятен старым жителям форума :)

В OWB есть специальный компонент MATCH-MERGE который нужен как раз для очистки грязных данных. Там можно выбрать и настроить разные алгоритмы очистки и сопоставления.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33001401
Тужибаев Тимур
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Birkhoff Тужибаев Тимур авторOracle Warehouse Builder :))

А в чем характер "загрязнений"?

Не совсем понял в чем юмор, ну да ладно :)

Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.)

Базы трех типов: Excel, Access, SQLServerНу я просто всегда советую OWB. Этот юмор понятен старым жителям форума :)

В OWB есть специальный компонент MATCH-MERGE который нужен как раз для очистки грязных данных. Там можно выбрать и настроить разные алгоритмы очистки и сопоставления.

Понятно. А OWB вышеописанные типы БД потдерживает?
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33001410
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Тужибаев ТимурПонятно. А OWB вышеописанные типы БД потдерживает?Ему все равно. Он поддерживает те типы, к которым может присоединиться Oracle. А Oracle может.
Да, кстати, для работы OWB нужна СУБД Oracle EE.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33001717
Тужибаев Тимур
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Birkhoff Тужибаев ТимурПонятно. А OWB вышеописанные типы БД потдерживает?Ему все равно. Он поддерживает те типы, к которым может присоединиться Oracle. А Oracle может.
Да, кстати, для работы OWB нужна СУБД Oracle EE.

Уууу.. ну начинается! Чтобы воспользоваться этой кнопочкой вам надо поставить эту маааленькую програмку, которая работает на этой небольшой платформе, которой надо офигительную БД. А полехше варианты есть?
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33001862
kosour
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Постулат 1. Никакой ETL это не делает
Постулат 2. Любой ETL это может сделать.

:)

Одна из задач, которую приходится решать при построении ХД - сведение разных источников данных в единое ХД. Вторая из задач - очистка данных.

Но в каждом конкретном случае - свои источники данных и свои понятия "загрязнения". Поэтому в твоем случае, с одной стороны - это типичная задача, которую можно реализовать на любом ETL, но чтобы это реализовать - нет готовых решений - типа кнопочка, с указанием источников, правил очистки и в результате - чистая табличка.

P.S. Если не хочется использовать OWB (ну и там оракл за кадром :) ) - то детализируй задачу и требования.

---
Косоурихин Сергей
BI Partner
DWH & OLAP
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33001867
kosour
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ну а если серьезно, то

в случае источников данных
Тужибаев Тимур
Базы трех типов: Excel, Access, SQLServer


видимо, стоит посмотреть в сторону MS DTS (Data Transformation Services)

---
Косоурихин Сергей
BI Partner
DWH & OLAP
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33001872
ShIgor
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Йее!!!
Вот это да! Решение от MS тоже на подходе:
http://msdn.microsoft.com/SQL/2005/2005Articles/default.aspx?pull=/library/en-us/dnsql90/html/fzdtssql05.asp
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33002207
Тужибаев Тимур
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторвидимо, стоит посмотреть в сторону MS DTS (Data Transformation Services)


А на каком основании такое умозаключение сделано? Потому что один производитель? Помоему это не тот фактор на который стоит обращать в первую очередь внимание.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33002292
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Тужибаев Тимур Birkhoff Тужибаев ТимурПонятно. А OWB вышеописанные типы БД потдерживает?Ему все равно. Он поддерживает те типы, к которым может присоединиться Oracle. А Oracle может.
Да, кстати, для работы OWB нужна СУБД Oracle EE.

Уууу.. ну начинается! Чтобы воспользоваться этой кнопочкой вам надо поставить эту маааленькую програмку, которая работает на этой небольшой платформе, которой надо офигительную БД. А полехше варианты есть?Товарищ, вы попросили посоветовать вам case без всякой вводной информации (есть у вас Oracle нет у вас Oracle, какие объемы грязных данных и т.д.) Я вам посоветовал case, где такой функционал есть. Если вам что-то не нравится по какой то причине - дело ваше.
Я вам ничего не продаю.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33002332
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
но чтобы это реализовать - нет готовых решений - типа кнопочка, с указанием источников, правил очистки и в результате - чистая табличка. Сергей, почему нет то? А match-merge в OWB?
Или я чего то не понял.

Другое дело, что 100% результата очистки ни одно средство не гарантирует.
Если вам нужно очистить 100 записей в неделю или даже в день, проще вообще посадить девочку, которая за 15 минут в день это сделает.
А если поток грязных данных, это миллионы записей в неделю, то надо либо держать штат "девочек", либо использовать систему, которая хотя бы 95% вычистит автоматом, а уж оставшиеся 5% все равно придется руками.
Но 50 000 записей почистить все равно проще, чем миллион.
На этом и экономятся деньги и время.

P.S. Если не хочется использовать OWB (ну и там оракл за кадром :) ) - то детализируй задачу и требования.Вот с этим - согласен.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33002857
kosour
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Birkhoff но чтобы это реализовать - нет готовых решений - типа кнопочка, с указанием источников, правил очистки и в результате - чистая табличка. Сергей, почему нет то? А match-merge в OWB?
Или я чего то не понял.


Пойнт был в том, что OWB, как и другой ETL, - это инструмент, на котором _можно_ реализовать такой алгоритм - с бОльшей или мЕньшей трудоемкостью, на готовой реализации нет ни в одном инструменте.

Т.е. разница между match-merge и кнопочкой очистки данных - примерно как между глиной и тарелкой сделанной из этой глины. Просто match-merge - способ быстрее слепить тарелку. Но не сама тарелка :)

Ближе к исходному примеру - ведь наверняка среди источников нет таблички, в которой описаны все варианты написания ООО "Рога и Копыта" - чтобы сделать по ней lookup и выбрать правильный вариант.

Типа
Company_synonym (
Base_Description varchar2(255),
Synonym_Description varchar2(255) )
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33002863
kosour
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Тужибаев Тимур авторвидимо, стоит посмотреть в сторону MS DTS (Data Transformation Services)


А на каком основании такое умозаключение сделано? Потому что один производитель? Помоему это не тот фактор на который стоит обращать в первую очередь внимание.

Фактор, на который надо обращать в первую очередь внимание должен стоять под номером 1 в списке требований к софту, выполняющему очистку данных.

Как только появится список отранжированных требований, так появятся и обоснования. Я знаю n >1 случая, когда требование софта одного производителя было главным :)
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33003246
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
kosourТ.е. разница между match-merge и кнопочкой очистки данных - примерно как между глиной и тарелкой сделанной из этой глины. Просто match-merge - способ быстрее слепить тарелку. Но не сама тарелка :)

Ближе к исходному примеру - ведь наверняка среди источников нет таблички, в которой описаны все варианты написания ООО "Рога и Копыта" - чтобы сделать по ней lookup и выбрать правильный вариант.

Типа
Company_synonym (
Base_Description varchar2(255),
Synonym_Description varchar2(255) )Сергей, может быть в не видели match-merge, он построен по другому. Это набор алгоритмов, причем необязательно типа прямого lookup-a. Там есть разные весовые, нечеткие алгоритмы, которые ищут похожие строки именно по сходству, а не потому что они где-то отлукаплены. Можно делать цепочку фильтров, в том числе и самописных, для того чтобы очищать то, что прошло через предыдущий фильтр.

Это по сути продукт в продукте.
Раньше это был продукт Oracle Pure Integrate, который продавался за отдельные деньги, а потом в силу того, что он к ETL очень близок его интегрировали в OWB в виде отдельного оператора, но все аолгоритмы там остались внутри.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33003611
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Тимур:

Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.)
Базы трех типов: Excel, Access, SQLServer


Я в свое время решал задачу синхронизации справочников и поддержки синонимов, и делал это для большого числа разрозненных неструктурированных файлов Excel. У Вас есть кроме Excel еще Access и MS SQL, но если например с листа Excel сделать связь с таблицами Access и MS SQL (или немного доработать мое ETL-решение :) то можно свести Вашу задачу к моему варианту ее решения. Кстати, мое ETL-решение заточено на интеграцию с продуктами Cognos.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33003894
Тужибаев Тимур
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jurii2 Тимур:

Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.)
Базы трех типов: Excel, Access, SQLServer


Я в свое время решал задачу синхронизации справочников и поддержки синонимов, и делал это для большого числа разрозненных неструктурированных файлов Excel. У Вас есть кроме Excel еще Access и MS SQL, но если например с листа Excel сделать связь с таблицами Access и MS SQL (или немного доработать мое ETL-решение :) то можно свести Вашу задачу к моему варианту ее решения. Кстати, мое ETL-решение заточено на интеграцию с продуктами Cognos.

Как я понял это на правах рекламы?:)
Спасибо но пока непоредственно приобретение продуктов не намечается.Так как примерный круг задач я выделил, мне интересно в каком инструменте эти задачи решаются с наименьшим гемороем. А мои пожелания в будущем будут учтены при приобретении.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33004254
kosour
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Birkhoff
Это по сути продукт в продукте.
Раньше это был продукт Oracle Pure Integrate, который продавался за отдельные деньги, а потом в силу того, что он к ETL очень близок его интегрировали в OWB в виде отдельного оператора, но все аолгоритмы там остались внутри.

Да, сорри, я про другую функциональность говорил - про обычный merge мы тут бились как раз с ним :). match-merge - это другое, согласен.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33004468
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Тимур:

Как я понял это на правах рекламы?:)
Спасибо но пока непоредственно приобретение продуктов не намечается.


Покупать я вам это не предлагаю, поскольку у вас нет такого бюджета. А своими знаниями могу поделиться, реальным опытом, а не декларированием функциональности какого-либо когобочного ETL, которую никто не внедрял.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33005368
Тужибаев Тимур
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jurii2 Тимур:

Как я понял это на правах рекламы?:)
Спасибо но пока непоредственно приобретение продуктов не намечается.


Покупать я вам это не предлагаю, поскольку у вас нет такого бюджета. А своими знаниями могу поделиться, реальным опытом, а не декларированием функциональности какого-либо когобочного ETL, которую никто не внедрял.

Во! Амынно это я и ишшу! Больше всего мне интересен механизм сопоставления строк для сведения разрозненных таблиц с однотипными данными в одну.
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33005708
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Тимур,

возможно эта статья Вам как-то поможет. Она описывает подходы к решению этой задачи, в том числе и средствами СУБД.

Возможно, стоит также смотреть на инструменты Ascential, Informatica, Trillium, FirstLogic. Однако, скорее всего, в них отсутствует поддержка Российской специфики. Ну, и стоимость, соответственно, должна быть оправдана, то есть решение задачи должно принести ощутимый экономический эффект.

Удачи!


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Инструмент для настройки сопоставления строк
    #33006754
Тужибаев Тимур
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Константин ЛисянскийТимур,

возможно эта статья Вам как-то поможет. Она описывает подходы к решению этой задачи, в том числе и средствами СУБД.

Возможно, стоит также смотреть на инструменты Ascential, Informatica, Trillium, FirstLogic. Однако, скорее всего, в них отсутствует поддержка Российской специфики. Ну, и стоимость, соответственно, должна быть оправдана, то есть решение задачи должно принести ощутимый экономический эффект.

Удачи!


С уважением,
Константин Лисянский
http://lissianski.narod.ru

Благодарю Константин! Эту статью я уже читал, очень познавательно. Инструментами сейчас займусь ;)
...
Рейтинг: 0 / 0
24 сообщений из 24, страница 1 из 1
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Инструмент для настройки сопоставления строк
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]