|
|
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
встала тут вот такая задача нужна научиться сравнивать разные базы по сферам деятельности причем с учетом того что в разных базах названия рубрик свое понятно что можно сесть и сопоставить рубрики вручную но это долго и на это тратиться много сил и баз разных будет сравниваться много друг с другом как нибудь это можно автоматизировать? кто нибудь сталкивался с таким уже? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.08.2008, 18:32 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
Дайте мне Гугл в руки © /* Novus Ordo Seclorum */ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2008, 22:27 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
а что именно там искать? напрямую ничего полезного не находится ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.08.2008, 12:26 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
компараторвстала тут вот такая задача нужна научиться сравнивать разные базы по сферам деятельности причем с учетом того что в разных базах названия рубрик свое Что значит сравнивать БД по сфеам деятельности? А что есть рубрика? Вам что именно надо сравнить и что получить? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.09.2008, 09:48 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
gR4mmЧто значит сравнивать БД по сфеам деятельности? А что есть рубрика? Вам что именно надо сравнить и что получить?Ну вот есть разные базы. Желтые страницы, БТК, аллинформ, компас там есть деление организаций на рубрики по сферам деятельности. Но в каждой базе рубрики свои собственные вот например сайты ЖС , Аллинформ , БТК дело в том что в большинстве баз списки рубрик разные. а в некоторых база есть ОКВЭД который совсем другой. занимался кто-нибудь сопоставлением таких рубрикаторов по сферам деятельности? если да то каким образом это делалось хотелось бы чтобы поделились опытом ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.09.2008, 10:42 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
А что в результате этого сравнения надо получить-то? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.09.2008, 16:24 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
Надо получить сответствие рубрик одной базы с рубриками второй базы ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.09.2008, 16:29 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
Проще руками проставить ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.09.2008, 09:26 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
компараторНадо получить сответствие рубрик одной базы с рубриками второй базы Если не делать проверки соответствия данных действительности - можно только сказать - "в этой объектов на вид больше, чем в той" - кол-во объектов (абсолютное? за период времени?) - "в этой объекты на вид охарактеризованы более полно, чем в той" - кол-во атрибутов - "в этой объекты на вид охарактеризованы более точно, чем в той" - кол-во степеней градации значений атрибутов. Об основных свойствах данных в этих БД, таких как объективность, полнота, достоверность, адекватность, доступность и актуальность - при помощи такого наблюдения ничего сказать невозможно. Если хотите сравнить по-настоящему, нужна проверка репрезентативных выборок объектов данных БД, значимых для одной и той же целевой аудитории. Доступ к предметной области, масса времени, статистика и TQM Вам в руки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.09.2008, 23:58 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
AlexTheRaven компараторНадо получить сответствие рубрик одной базы с рубриками второй базы Если не делать проверки соответствия данных действительности - можно только сказать - "в этой объектов на вид больше, чем в той" - кол-во объектов (абсолютное? за период времени?) - "в этой объекты на вид охарактеризованы более полно, чем в той" - кол-во атрибутов - "в этой объекты на вид охарактеризованы более точно, чем в той" - кол-во степеней градации значений атрибутов.Чего-то совсем не понял кого вобще может это интересовать У нас более приземленная задача - свести две разных базы вместе и их заклассифицировать. В двух разных базах - разные рубрикаторы. В одной, например, свой собственный, в другой - ОКВЭД. Надо их как-то скрестить и сопоставить. Кроме этого хочется получить дополнительный критерий при проверке на дубли. Если организации имееют похожее название и схожую сферу деятельности - то они претенденты на дубль. AlexTheRavenОб основных свойствах данных в этих БД, таких как объективность, полнота, достоверность, адекватность, доступность и актуальность - при помощи такого наблюдения ничего сказать невозможно.Будем считать что верим авторам баз на слово ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.09.2008, 11:13 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
компаратор AlexTheRaven компараторНадо получить сответствие рубрик одной базы с рубриками второй базы Если не делать проверки соответствия данных действительности - можно только сказать - "в этой объектов на вид больше, чем в той" - кол-во объектов (абсолютное? за период времени?) - "в этой объекты на вид охарактеризованы более полно, чем в той" - кол-во атрибутов - "в этой объекты на вид охарактеризованы более точно, чем в той" - кол-во степеней градации значений атрибутов.Чего-то совсем не понял кого вобще может это интересовать У нас более приземленная задача - свести две разных базы вместе и их заклассифицировать. В двух разных базах - разные рубрикаторы. В одной, например, свой собственный, в другой - ОКВЭД. Надо их как-то скрестить и сопоставить. Кроме этого хочется получить дополнительный критерий при проверке на дубли. Если организации имееют похожее название и схожую сферу деятельности - то они претенденты на дубль. AlexTheRavenОб основных свойствах данных в этих БД, таких как объективность, полнота, достоверность, адекватность, доступность и актуальность - при помощи такого наблюдения ничего сказать невозможно.Будем считать что верим авторам баз на слово Попробовать построить таблицы соответствия между рубрикаторами? Ну и по названиям юрлиц можно соответствия сделать. Кроме названия и ИНН можно еще адреса регистрации/почтовый/юридический использовать. По нахождению соответствия по юрлицам можно пробовать устанавливать соответствия по рубрикаторам. Возможно удасться за несколько проходов большую часть разобрать. Остальное - ручками. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.09.2008, 22:01 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
компаратор AlexTheRaven компараторНадо получить сответствие рубрик одной базы с рубриками второй базы Если не делать проверки соответствия данных действительности - можно только сказать - "в этой объектов на вид больше, чем в той" - кол-во объектов (абсолютное? за период времени?) - "в этой объекты на вид охарактеризованы более полно, чем в той" - кол-во атрибутов - "в этой объекты на вид охарактеризованы более точно, чем в той" - кол-во степеней градации значений атрибутов.Чего-то совсем не понял кого вобще может это интересовать У нас более приземленная задача - свести две разных базы вместе и их заклассифицировать. В двух разных базах - разные рубрикаторы. В одной, например, свой собственный, в другой - ОКВЭД. Надо их как-то скрестить и сопоставить. Кроме этого хочется получить дополнительный критерий при проверке на дубли. Если организации имееют похожее название и схожую сферу деятельности - то они претенденты на дубль. AlexTheRavenОб основных свойствах данных в этих БД, таких как объективность, полнота, достоверность, адекватность, доступность и актуальность - при помощи такого наблюдения ничего сказать невозможно.Будем считать что верим авторам баз на слово Есть еще идея - можно попытаться построить соответствия между рубриками по количеству предприятий в каждой из рубрик. Поскольку обе базы описывают одно и тоже множество, то может оказаться, что количества будут коррелировать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.09.2008, 09:13 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
Николай1Попробовать построить таблицы соответствия между рубрикаторами? Ну и по названиям юрлиц можно соответствия сделать. Кроме названия и ИНН можно еще адреса регистрации/почтовый/юридический использовать. По нахождению соответствия по юрлицам можно пробовать устанавливать соответствия по рубрикаторам. Возможно удасться за несколько проходов большую часть разобрать. Остальное - ручками.У нас сравнение рубрик в базах - не самоцель, а средство (доп. условие для поиска похожести). Если мы нашли, что какие-то организации являются одинаковыми, то смысла в сравнении рубрик нет. Что касается названий, то выяснилось, что есть много организаций с одинаковыми названиями и разными сферами деятельности. Всякие ООО "Агат", "Альбатрос", "Фрегат" итп. А если есть ИНН в обоих базах, то сравнение будет происходить только по ИНН в 99% случаев. Остальное будет просто не нужно. Вот только ИНН почти нигде нет. Николай1Есть еще идея - можно попытаться построить соответствия между рубриками по количеству предприятий в каждой из рубрик. Поскольку обе базы описывают одно и тоже множество, то может оказаться, что количества будут коррелировать.Это врядли вобще сработает. Потому что наплненность базы зависит от региона а не от сфкры деятельности. кто-то в одном регионе сделал базу хорошо кто-то плохо. А если одна база про все организации а другая только про строительные, то сравнивать по кол-ву вобще не получится. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.09.2008, 13:54 |
|
||
|
сравнение разных баз
|
|||
|---|---|---|---|
|
#18+
компаратор Николай1Попробовать построить таблицы соответствия между рубрикаторами? Ну и по названиям юрлиц можно соответствия сделать. Кроме названия и ИНН можно еще адреса регистрации/почтовый/юридический использовать. По нахождению соответствия по юрлицам можно пробовать устанавливать соответствия по рубрикаторам. Возможно удасться за несколько проходов большую часть разобрать. Остальное - ручками.У нас сравнение рубрик в базах - не самоцель, а средство (доп. условие для поиска похожести). Если мы нашли, что какие-то организации являются одинаковыми, то смысла в сравнении рубрик нет. Что касается названий, то выяснилось, что есть много организаций с одинаковыми названиями и разными сферами деятельности. Всякие ООО "Агат", "Альбатрос", "Фрегат" итп. А если есть ИНН в обоих базах, то сравнение будет происходить только по ИНН в 99% случаев. Остальное будет просто не нужно. Вот только ИНН почти нигде нет. Николай1Есть еще идея - можно попытаться построить соответствия между рубриками по количеству предприятий в каждой из рубрик. Поскольку обе базы описывают одно и тоже множество, то может оказаться, что количества будут коррелировать.Это врядли вобще сработает. Потому что наплненность базы зависит от региона а не от сфкры деятельности. кто-то в одном регионе сделал базу хорошо кто-то плохо. А если одна база про все организации а другая только про строительные, то сравнивать по кол-ву вобще не получится. Это были лишь идеи. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.09.2008, 19:19 |
|
||
|
|

start [/forum/topic.php?fid=32&msg=35513937&tid=1543663]: |
0ms |
get settings: |
6ms |
get forum list: |
16ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
176ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
42ms |
get tp. blocked users: |
1ms |
| others: | 198ms |
| total: | 454ms |

| 0 / 0 |
