Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Уважаемые! У меня проблема: есть разные источники однородных и загрязненных данных, необходимо сведение их в одну таблицу. Насколько я знаю эта процедура называется сопоставление. Порекомендуйте Case инструмент для эфективного решения этой проблемы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.04.2005, 16:20 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Oracle Warehouse Builder :)) А в чем характер "загрязнений"? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.04.2005, 16:28 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
авторOracle Warehouse Builder :)) А в чем характер "загрязнений"? Не совсем понял в чем юмор, ну да ладно :) Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.) Базы трех типов: Excel, Access, SQLServer ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.04.2005, 16:38 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Cognos DecisionStream обладает таким функционалом? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.04.2005, 18:50 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Тужибаев Тимур авторOracle Warehouse Builder :)) А в чем характер "загрязнений"? Не совсем понял в чем юмор, ну да ладно :) Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.) Базы трех типов: Excel, Access, SQLServerНу я просто всегда советую OWB. Этот юмор понятен старым жителям форума :) В OWB есть специальный компонент MATCH-MERGE который нужен как раз для очистки грязных данных. Там можно выбрать и настроить разные алгоритмы очистки и сопоставления. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.04.2005, 18:54 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Birkhoff Тужибаев Тимур авторOracle Warehouse Builder :)) А в чем характер "загрязнений"? Не совсем понял в чем юмор, ну да ладно :) Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.) Базы трех типов: Excel, Access, SQLServerНу я просто всегда советую OWB. Этот юмор понятен старым жителям форума :) В OWB есть специальный компонент MATCH-MERGE который нужен как раз для очистки грязных данных. Там можно выбрать и настроить разные алгоритмы очистки и сопоставления. Понятно. А OWB вышеописанные типы БД потдерживает? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.04.2005, 19:01 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Тужибаев ТимурПонятно. А OWB вышеописанные типы БД потдерживает?Ему все равно. Он поддерживает те типы, к которым может присоединиться Oracle. А Oracle может. Да, кстати, для работы OWB нужна СУБД Oracle EE. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.04.2005, 19:07 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Birkhoff Тужибаев ТимурПонятно. А OWB вышеописанные типы БД потдерживает?Ему все равно. Он поддерживает те типы, к которым может присоединиться Oracle. А Oracle может. Да, кстати, для работы OWB нужна СУБД Oracle EE. Уууу.. ну начинается! Чтобы воспользоваться этой кнопочкой вам надо поставить эту маааленькую програмку, которая работает на этой небольшой платформе, которой надо офигительную БД. А полехше варианты есть? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 06:32 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Постулат 1. Никакой ETL это не делает Постулат 2. Любой ETL это может сделать. :) Одна из задач, которую приходится решать при построении ХД - сведение разных источников данных в единое ХД. Вторая из задач - очистка данных. Но в каждом конкретном случае - свои источники данных и свои понятия "загрязнения". Поэтому в твоем случае, с одной стороны - это типичная задача, которую можно реализовать на любом ETL, но чтобы это реализовать - нет готовых решений - типа кнопочка, с указанием источников, правил очистки и в результате - чистая табличка. P.S. Если не хочется использовать OWB (ну и там оракл за кадром :) ) - то детализируй задачу и требования. --- Косоурихин Сергей BI Partner DWH & OLAP ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 09:42 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Ну а если серьезно, то в случае источников данных Тужибаев Тимур Базы трех типов: Excel, Access, SQLServer видимо, стоит посмотреть в сторону MS DTS (Data Transformation Services) --- Косоурихин Сергей BI Partner DWH & OLAP ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 09:44 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Йее!!! Вот это да! Решение от MS тоже на подходе: http://msdn.microsoft.com/SQL/2005/2005Articles/default.aspx?pull=/library/en-us/dnsql90/html/fzdtssql05.asp ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 09:46 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
авторвидимо, стоит посмотреть в сторону MS DTS (Data Transformation Services) А на каком основании такое умозаключение сделано? Потому что один производитель? Помоему это не тот фактор на который стоит обращать в первую очередь внимание. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 11:39 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Тужибаев Тимур Birkhoff Тужибаев ТимурПонятно. А OWB вышеописанные типы БД потдерживает?Ему все равно. Он поддерживает те типы, к которым может присоединиться Oracle. А Oracle может. Да, кстати, для работы OWB нужна СУБД Oracle EE. Уууу.. ну начинается! Чтобы воспользоваться этой кнопочкой вам надо поставить эту маааленькую програмку, которая работает на этой небольшой платформе, которой надо офигительную БД. А полехше варианты есть?Товарищ, вы попросили посоветовать вам case без всякой вводной информации (есть у вас Oracle нет у вас Oracle, какие объемы грязных данных и т.д.) Я вам посоветовал case, где такой функционал есть. Если вам что-то не нравится по какой то причине - дело ваше. Я вам ничего не продаю. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 12:05 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
но чтобы это реализовать - нет готовых решений - типа кнопочка, с указанием источников, правил очистки и в результате - чистая табличка. Сергей, почему нет то? А match-merge в OWB? Или я чего то не понял. Другое дело, что 100% результата очистки ни одно средство не гарантирует. Если вам нужно очистить 100 записей в неделю или даже в день, проще вообще посадить девочку, которая за 15 минут в день это сделает. А если поток грязных данных, это миллионы записей в неделю, то надо либо держать штат "девочек", либо использовать систему, которая хотя бы 95% вычистит автоматом, а уж оставшиеся 5% все равно придется руками. Но 50 000 записей почистить все равно проще, чем миллион. На этом и экономятся деньги и время. P.S. Если не хочется использовать OWB (ну и там оракл за кадром :) ) - то детализируй задачу и требования.Вот с этим - согласен. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 12:14 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Birkhoff но чтобы это реализовать - нет готовых решений - типа кнопочка, с указанием источников, правил очистки и в результате - чистая табличка. Сергей, почему нет то? А match-merge в OWB? Или я чего то не понял. Пойнт был в том, что OWB, как и другой ETL, - это инструмент, на котором _можно_ реализовать такой алгоритм - с бОльшей или мЕньшей трудоемкостью, на готовой реализации нет ни в одном инструменте. Т.е. разница между match-merge и кнопочкой очистки данных - примерно как между глиной и тарелкой сделанной из этой глины. Просто match-merge - способ быстрее слепить тарелку. Но не сама тарелка :) Ближе к исходному примеру - ведь наверняка среди источников нет таблички, в которой описаны все варианты написания ООО "Рога и Копыта" - чтобы сделать по ней lookup и выбрать правильный вариант. Типа Company_synonym ( Base_Description varchar2(255), Synonym_Description varchar2(255) ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 15:04 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Тужибаев Тимур авторвидимо, стоит посмотреть в сторону MS DTS (Data Transformation Services) А на каком основании такое умозаключение сделано? Потому что один производитель? Помоему это не тот фактор на который стоит обращать в первую очередь внимание. Фактор, на который надо обращать в первую очередь внимание должен стоять под номером 1 в списке требований к софту, выполняющему очистку данных. Как только появится список отранжированных требований, так появятся и обоснования. Я знаю n >1 случая, когда требование софта одного производителя было главным :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 15:07 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
kosourТ.е. разница между match-merge и кнопочкой очистки данных - примерно как между глиной и тарелкой сделанной из этой глины. Просто match-merge - способ быстрее слепить тарелку. Но не сама тарелка :) Ближе к исходному примеру - ведь наверняка среди источников нет таблички, в которой описаны все варианты написания ООО "Рога и Копыта" - чтобы сделать по ней lookup и выбрать правильный вариант. Типа Company_synonym ( Base_Description varchar2(255), Synonym_Description varchar2(255) )Сергей, может быть в не видели match-merge, он построен по другому. Это набор алгоритмов, причем необязательно типа прямого lookup-a. Там есть разные весовые, нечеткие алгоритмы, которые ищут похожие строки именно по сходству, а не потому что они где-то отлукаплены. Можно делать цепочку фильтров, в том числе и самописных, для того чтобы очищать то, что прошло через предыдущий фильтр. Это по сути продукт в продукте. Раньше это был продукт Oracle Pure Integrate, который продавался за отдельные деньги, а потом в силу того, что он к ETL очень близок его интегрировали в OWB в виде отдельного оператора, но все аолгоритмы там остались внутри. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 17:15 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
2 Тимур: Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.) Базы трех типов: Excel, Access, SQLServer Я в свое время решал задачу синхронизации справочников и поддержки синонимов, и делал это для большого числа разрозненных неструктурированных файлов Excel. У Вас есть кроме Excel еще Access и MS SQL, но если например с листа Excel сделать связь с таблицами Access и MS SQL (или немного доработать мое ETL-решение :) то можно свести Вашу задачу к моему варианту ее решения. Кстати, мое ETL-решение заточено на интеграцию с продуктами Cognos. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.04.2005, 19:30 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Jurii2 Тимур: Загрязнения: одни и теже сущности обозванны по разному (названия организаций: то ООО "Рога и копыта", то рога и копыта и т.п.) Базы трех типов: Excel, Access, SQLServer Я в свое время решал задачу синхронизации справочников и поддержки синонимов, и делал это для большого числа разрозненных неструктурированных файлов Excel. У Вас есть кроме Excel еще Access и MS SQL, но если например с листа Excel сделать связь с таблицами Access и MS SQL (или немного доработать мое ETL-решение :) то можно свести Вашу задачу к моему варианту ее решения. Кстати, мое ETL-решение заточено на интеграцию с продуктами Cognos. Как я понял это на правах рекламы?:) Спасибо но пока непоредственно приобретение продуктов не намечается.Так как примерный круг задач я выделил, мне интересно в каком инструменте эти задачи решаются с наименьшим гемороем. А мои пожелания в будущем будут учтены при приобретении. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.04.2005, 06:38 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Birkhoff Это по сути продукт в продукте. Раньше это был продукт Oracle Pure Integrate, который продавался за отдельные деньги, а потом в силу того, что он к ETL очень близок его интегрировали в OWB в виде отдельного оператора, но все аолгоритмы там остались внутри. Да, сорри, я про другую функциональность говорил - про обычный merge мы тут бились как раз с ним :). match-merge - это другое, согласен. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.04.2005, 11:07 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
2 Тимур: Как я понял это на правах рекламы?:) Спасибо но пока непоредственно приобретение продуктов не намечается. Покупать я вам это не предлагаю, поскольку у вас нет такого бюджета. А своими знаниями могу поделиться, реальным опытом, а не декларированием функциональности какого-либо когобочного ETL, которую никто не внедрял. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.04.2005, 12:08 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Jurii2 Тимур: Как я понял это на правах рекламы?:) Спасибо но пока непоредственно приобретение продуктов не намечается. Покупать я вам это не предлагаю, поскольку у вас нет такого бюджета. А своими знаниями могу поделиться, реальным опытом, а не декларированием функциональности какого-либо когобочного ETL, которую никто не внедрял. Во! Амынно это я и ишшу! Больше всего мне интересен механизм сопоставления строк для сведения разрозненных таблиц с однотипными данными в одну. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.04.2005, 15:32 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Тимур, возможно эта статья Вам как-то поможет. Она описывает подходы к решению этой задачи, в том числе и средствами СУБД. Возможно, стоит также смотреть на инструменты Ascential, Informatica, Trillium, FirstLogic. Однако, скорее всего, в них отсутствует поддержка Российской специфики. Ну, и стоимость, соответственно, должна быть оправдана, то есть решение задачи должно принести ощутимый экономический эффект. Удачи! С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.04.2005, 17:28 |
|
||
|
Инструмент для настройки сопоставления строк
|
|||
|---|---|---|---|
|
#18+
Константин ЛисянскийТимур, возможно эта статья Вам как-то поможет. Она описывает подходы к решению этой задачи, в том числе и средствами СУБД. Возможно, стоит также смотреть на инструменты Ascential, Informatica, Trillium, FirstLogic. Однако, скорее всего, в них отсутствует поддержка Российской специфики. Ну, и стоимость, соответственно, должна быть оправдана, то есть решение задачи должно принести ощутимый экономический эффект. Удачи! С уважением, Константин Лисянский http://lissianski.narod.ru Благодарю Константин! Эту статью я уже читал, очень познавательно. Инструментами сейчас займусь ;) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.04.2005, 11:32 |
|
||
|
|

start [/forum/topic.php?fid=49&msg=33001021&tid=1871597]: |
0ms |
get settings: |
9ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
52ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
55ms |
get tp. blocked users: |
1ms |
| others: | 260ms |
| total: | 406ms |

| 0 / 0 |
