Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Инструмент для настройки сопоставления строк / 24 сообщений из 24, страница 1 из 1
06.04.2005, 16:20
    #33000967
Тужибаев Тимур
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Уважаемые! У меня проблема: есть разные источники однородных и загрязненных данных, необходимо сведение их в одну таблицу. Насколько я знаю эта процедура называется сопоставление. Порекомендуйте Case инструмент для эфективного решения этой проблемы.
...
Рейтинг: 0 / 0
06.04.2005, 16:28
    #33000992
Birkhoff
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Oracle Warehouse Builder :))

А в чем характер "загрязнений"?
...
Рейтинг: 0 / 0
06.04.2005, 16:38
    #33001021
Тужибаев Тимур
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
авторOracle Warehouse Builder :))

А в чем характер "загрязнений"?

Не совсем понял в чем юмор, ну да ладно :)

Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.)

Базы трех типов: Excel, Access, SQLServer
...
Рейтинг: 0 / 0
06.04.2005, 18:50
    #33001381
Тужибаев Тимур
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Cognos DecisionStream обладает таким функционалом?
...
Рейтинг: 0 / 0
06.04.2005, 18:54
    #33001392
Birkhoff
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Тужибаев Тимур авторOracle Warehouse Builder :))

А в чем характер "загрязнений"?

Не совсем понял в чем юмор, ну да ладно :)

Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.)

Базы трех типов: Excel, Access, SQLServerНу я просто всегда советую OWB. Этот юмор понятен старым жителям форума :)

В OWB есть специальный компонент MATCH-MERGE который нужен как раз для очистки грязных данных. Там можно выбрать и настроить разные алгоритмы очистки и сопоставления.
...
Рейтинг: 0 / 0
06.04.2005, 19:01
    #33001401
Тужибаев Тимур
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Birkhoff Тужибаев Тимур авторOracle Warehouse Builder :))

А в чем характер "загрязнений"?

Не совсем понял в чем юмор, ну да ладно :)

Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.)

Базы трех типов: Excel, Access, SQLServerНу я просто всегда советую OWB. Этот юмор понятен старым жителям форума :)

В OWB есть специальный компонент MATCH-MERGE который нужен как раз для очистки грязных данных. Там можно выбрать и настроить разные алгоритмы очистки и сопоставления.

Понятно. А OWB вышеописанные типы БД потдерживает?
...
Рейтинг: 0 / 0
06.04.2005, 19:07
    #33001410
Birkhoff
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Тужибаев ТимурПонятно. А OWB вышеописанные типы БД потдерживает?Ему все равно. Он поддерживает те типы, к которым может присоединиться Oracle. А Oracle может.
Да, кстати, для работы OWB нужна СУБД Oracle EE.
...
Рейтинг: 0 / 0
07.04.2005, 06:32
    #33001717
Тужибаев Тимур
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Birkhoff Тужибаев ТимурПонятно. А OWB вышеописанные типы БД потдерживает?Ему все равно. Он поддерживает те типы, к которым может присоединиться Oracle. А Oracle может.
Да, кстати, для работы OWB нужна СУБД Oracle EE.

Уууу.. ну начинается! Чтобы воспользоваться этой кнопочкой вам надо поставить эту маааленькую програмку, которая работает на этой небольшой платформе, которой надо офигительную БД. А полехше варианты есть?
...
Рейтинг: 0 / 0
07.04.2005, 09:42
    #33001862
kosour
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Постулат 1. Никакой ETL это не делает
Постулат 2. Любой ETL это может сделать.

:)

Одна из задач, которую приходится решать при построении ХД - сведение разных источников данных в единое ХД. Вторая из задач - очистка данных.

Но в каждом конкретном случае - свои источники данных и свои понятия "загрязнения". Поэтому в твоем случае, с одной стороны - это типичная задача, которую можно реализовать на любом ETL, но чтобы это реализовать - нет готовых решений - типа кнопочка, с указанием источников, правил очистки и в результате - чистая табличка.

P.S. Если не хочется использовать OWB (ну и там оракл за кадром :) ) - то детализируй задачу и требования.

---
Косоурихин Сергей
BI Partner
DWH & OLAP
...
Рейтинг: 0 / 0
07.04.2005, 09:44
    #33001867
kosour
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Ну а если серьезно, то

в случае источников данных
Тужибаев Тимур
Базы трех типов: Excel, Access, SQLServer


видимо, стоит посмотреть в сторону MS DTS (Data Transformation Services)

---
Косоурихин Сергей
BI Partner
DWH & OLAP
...
Рейтинг: 0 / 0
07.04.2005, 09:46
    #33001872
ShIgor
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Йее!!!
Вот это да! Решение от MS тоже на подходе:
http://msdn.microsoft.com/SQL/2005/2005Articles/default.aspx?pull=/library/en-us/dnsql90/html/fzdtssql05.asp
...
Рейтинг: 0 / 0
07.04.2005, 11:39
    #33002207
Тужибаев Тимур
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
авторвидимо, стоит посмотреть в сторону MS DTS (Data Transformation Services)


А на каком основании такое умозаключение сделано? Потому что один производитель? Помоему это не тот фактор на который стоит обращать в первую очередь внимание.
...
Рейтинг: 0 / 0
07.04.2005, 12:05
    #33002292
Birkhoff
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Тужибаев Тимур Birkhoff Тужибаев ТимурПонятно. А OWB вышеописанные типы БД потдерживает?Ему все равно. Он поддерживает те типы, к которым может присоединиться Oracle. А Oracle может.
Да, кстати, для работы OWB нужна СУБД Oracle EE.

Уууу.. ну начинается! Чтобы воспользоваться этой кнопочкой вам надо поставить эту маааленькую програмку, которая работает на этой небольшой платформе, которой надо офигительную БД. А полехше варианты есть?Товарищ, вы попросили посоветовать вам case без всякой вводной информации (есть у вас Oracle нет у вас Oracle, какие объемы грязных данных и т.д.) Я вам посоветовал case, где такой функционал есть. Если вам что-то не нравится по какой то причине - дело ваше.
Я вам ничего не продаю.
...
Рейтинг: 0 / 0
07.04.2005, 12:14
    #33002332
Birkhoff
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
но чтобы это реализовать - нет готовых решений - типа кнопочка, с указанием источников, правил очистки и в результате - чистая табличка. Сергей, почему нет то? А match-merge в OWB?
Или я чего то не понял.

Другое дело, что 100% результата очистки ни одно средство не гарантирует.
Если вам нужно очистить 100 записей в неделю или даже в день, проще вообще посадить девочку, которая за 15 минут в день это сделает.
А если поток грязных данных, это миллионы записей в неделю, то надо либо держать штат "девочек", либо использовать систему, которая хотя бы 95% вычистит автоматом, а уж оставшиеся 5% все равно придется руками.
Но 50 000 записей почистить все равно проще, чем миллион.
На этом и экономятся деньги и время.

P.S. Если не хочется использовать OWB (ну и там оракл за кадром :) ) - то детализируй задачу и требования.Вот с этим - согласен.
...
Рейтинг: 0 / 0
07.04.2005, 15:04
    #33002857
kosour
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Birkhoff но чтобы это реализовать - нет готовых решений - типа кнопочка, с указанием источников, правил очистки и в результате - чистая табличка. Сергей, почему нет то? А match-merge в OWB?
Или я чего то не понял.


Пойнт был в том, что OWB, как и другой ETL, - это инструмент, на котором _можно_ реализовать такой алгоритм - с бОльшей или мЕньшей трудоемкостью, на готовой реализации нет ни в одном инструменте.

Т.е. разница между match-merge и кнопочкой очистки данных - примерно как между глиной и тарелкой сделанной из этой глины. Просто match-merge - способ быстрее слепить тарелку. Но не сама тарелка :)

Ближе к исходному примеру - ведь наверняка среди источников нет таблички, в которой описаны все варианты написания ООО "Рога и Копыта" - чтобы сделать по ней lookup и выбрать правильный вариант.

Типа
Company_synonym (
Base_Description varchar2(255),
Synonym_Description varchar2(255) )
...
Рейтинг: 0 / 0
07.04.2005, 15:07
    #33002863
kosour
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Тужибаев Тимур авторвидимо, стоит посмотреть в сторону MS DTS (Data Transformation Services)


А на каком основании такое умозаключение сделано? Потому что один производитель? Помоему это не тот фактор на который стоит обращать в первую очередь внимание.

Фактор, на который надо обращать в первую очередь внимание должен стоять под номером 1 в списке требований к софту, выполняющему очистку данных.

Как только появится список отранжированных требований, так появятся и обоснования. Я знаю n >1 случая, когда требование софта одного производителя было главным :)
...
Рейтинг: 0 / 0
07.04.2005, 17:15
    #33003246
Birkhoff
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
kosourТ.е. разница между match-merge и кнопочкой очистки данных - примерно как между глиной и тарелкой сделанной из этой глины. Просто match-merge - способ быстрее слепить тарелку. Но не сама тарелка :)

Ближе к исходному примеру - ведь наверняка среди источников нет таблички, в которой описаны все варианты написания ООО "Рога и Копыта" - чтобы сделать по ней lookup и выбрать правильный вариант.

Типа
Company_synonym (
Base_Description varchar2(255),
Synonym_Description varchar2(255) )Сергей, может быть в не видели match-merge, он построен по другому. Это набор алгоритмов, причем необязательно типа прямого lookup-a. Там есть разные весовые, нечеткие алгоритмы, которые ищут похожие строки именно по сходству, а не потому что они где-то отлукаплены. Можно делать цепочку фильтров, в том числе и самописных, для того чтобы очищать то, что прошло через предыдущий фильтр.

Это по сути продукт в продукте.
Раньше это был продукт Oracle Pure Integrate, который продавался за отдельные деньги, а потом в силу того, что он к ETL очень близок его интегрировали в OWB в виде отдельного оператора, но все аолгоритмы там остались внутри.
...
Рейтинг: 0 / 0
07.04.2005, 19:30
    #33003611
Jurii
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
2 Тимур:

Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.)
Базы трех типов: Excel, Access, SQLServer


Я в свое время решал задачу синхронизации справочников и поддержки синонимов, и делал это для большого числа разрозненных неструктурированных файлов Excel. У Вас есть кроме Excel еще Access и MS SQL, но если например с листа Excel сделать связь с таблицами Access и MS SQL (или немного доработать мое ETL-решение :) то можно свести Вашу задачу к моему варианту ее решения. Кстати, мое ETL-решение заточено на интеграцию с продуктами Cognos.
...
Рейтинг: 0 / 0
08.04.2005, 06:38
    #33003894
Тужибаев Тимур
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Jurii2 Тимур:

Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.)
Базы трех типов: Excel, Access, SQLServer


Я в свое время решал задачу синхронизации справочников и поддержки синонимов, и делал это для большого числа разрозненных неструктурированных файлов Excel. У Вас есть кроме Excel еще Access и MS SQL, но если например с листа Excel сделать связь с таблицами Access и MS SQL (или немного доработать мое ETL-решение :) то можно свести Вашу задачу к моему варианту ее решения. Кстати, мое ETL-решение заточено на интеграцию с продуктами Cognos.

Как я понял это на правах рекламы?:)
Спасибо но пока непоредственно приобретение продуктов не намечается.Так как примерный круг задач я выделил, мне интересно в каком инструменте эти задачи решаются с наименьшим гемороем. А мои пожелания в будущем будут учтены при приобретении.
...
Рейтинг: 0 / 0
08.04.2005, 11:07
    #33004254
kosour
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Birkhoff
Это по сути продукт в продукте.
Раньше это был продукт Oracle Pure Integrate, который продавался за отдельные деньги, а потом в силу того, что он к ETL очень близок его интегрировали в OWB в виде отдельного оператора, но все аолгоритмы там остались внутри.

Да, сорри, я про другую функциональность говорил - про обычный merge мы тут бились как раз с ним :). match-merge - это другое, согласен.
...
Рейтинг: 0 / 0
08.04.2005, 12:08
    #33004468
Jurii
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
2 Тимур:

Как я понял это на правах рекламы?:)
Спасибо но пока непоредственно приобретение продуктов не намечается.


Покупать я вам это не предлагаю, поскольку у вас нет такого бюджета. А своими знаниями могу поделиться, реальным опытом, а не декларированием функциональности какого-либо когобочного ETL, которую никто не внедрял.
...
Рейтинг: 0 / 0
08.04.2005, 15:32
    #33005368
Тужибаев Тимур
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Jurii2 Тимур:

Как я понял это на правах рекламы?:)
Спасибо но пока непоредственно приобретение продуктов не намечается.


Покупать я вам это не предлагаю, поскольку у вас нет такого бюджета. А своими знаниями могу поделиться, реальным опытом, а не декларированием функциональности какого-либо когобочного ETL, которую никто не внедрял.

Во! Амынно это я и ишшу! Больше всего мне интересен механизм сопоставления строк для сведения разрозненных таблиц с однотипными данными в одну.
...
Рейтинг: 0 / 0
08.04.2005, 17:28
    #33005708
Константин Лисянский
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Тимур,

возможно эта статья Вам как-то поможет. Она описывает подходы к решению этой задачи, в том числе и средствами СУБД.

Возможно, стоит также смотреть на инструменты Ascential, Informatica, Trillium, FirstLogic. Однако, скорее всего, в них отсутствует поддержка Российской специфики. Ну, и стоимость, соответственно, должна быть оправдана, то есть решение задачи должно принести ощутимый экономический эффект.

Удачи!


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
10.04.2005, 11:32
    #33006754
Тужибаев Тимур
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Инструмент для настройки сопоставления строк
Константин ЛисянскийТимур,

возможно эта статья Вам как-то поможет. Она описывает подходы к решению этой задачи, в том числе и средствами СУБД.

Возможно, стоит также смотреть на инструменты Ascential, Informatica, Trillium, FirstLogic. Однако, скорее всего, в них отсутствует поддержка Российской специфики. Ну, и стоимость, соответственно, должна быть оправдана, то есть решение задачи должно принести ощутимый экономический эффект.

Удачи!


С уважением,
Константин Лисянский
http://lissianski.narod.ru

Благодарю Константин! Эту статью я уже читал, очень познавательно. Инструментами сейчас займусь ;)
...
Рейтинг: 0 / 0
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Инструмент для настройки сопоставления строк / 24 сообщений из 24, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]