powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / сравнение разных баз
14 сообщений из 14, страница 1 из 1
сравнение разных баз
    #35513937
встала тут вот такая задача
нужна научиться сравнивать разные базы по сферам деятельности
причем с учетом того что в разных базах названия рубрик свое

понятно что можно сесть и сопоставить рубрики вручную
но это долго и на это тратиться много сил
и баз разных будет сравниваться много друг с другом

как нибудь это можно автоматизировать?
кто нибудь сталкивался с таким уже?
...
Рейтинг: 0 / 0
сравнение разных баз
    #35514626
Фотография С0ВЕСТЬ
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дайте мне Гугл в руки ©


/* Novus Ordo Seclorum */
...
Рейтинг: 0 / 0
сравнение разных баз
    #35514851
а что именно там искать?
напрямую ничего полезного не находится
...
Рейтинг: 0 / 0
сравнение разных баз
    #35515414
gR4mm
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
компараторвстала тут вот такая задача
нужна научиться сравнивать разные базы по сферам деятельности
причем с учетом того что в разных базах названия рубрик свое

Что значит сравнивать БД по сфеам деятельности?
А что есть рубрика?
Вам что именно надо сравнить и что получить?
...
Рейтинг: 0 / 0
сравнение разных баз
    #35515493
gR4mmЧто значит сравнивать БД по сфеам деятельности?
А что есть рубрика?
Вам что именно надо сравнить и что получить?Ну вот есть разные базы.
Желтые страницы, БТК, аллинформ, компас

там есть деление организаций на рубрики по сферам деятельности.
Но в каждой базе рубрики свои собственные
вот например сайты ЖС , Аллинформ , БТК

дело в том что в большинстве баз списки рубрик разные. а в некоторых база есть ОКВЭД который совсем другой.
занимался кто-нибудь сопоставлением таких рубрикаторов по сферам деятельности?
если да то каким образом это делалось
хотелось бы чтобы поделились опытом
...
Рейтинг: 0 / 0
сравнение разных баз
    #35516400
gR4mm
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А что в результате этого сравнения надо получить-то?
...
Рейтинг: 0 / 0
сравнение разных баз
    #35516410
Надо получить сответствие рубрик одной базы с рубриками второй базы
...
Рейтинг: 0 / 0
сравнение разных баз
    #35517211
Фотография Infernal V. Raven
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Проще руками проставить
...
Рейтинг: 0 / 0
сравнение разных баз
    #35519225
AlexTheRaven
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
компараторНадо получить сответствие рубрик одной базы с рубриками второй базы
Если не делать проверки соответствия данных действительности - можно только сказать
- "в этой объектов на вид больше, чем в той" - кол-во объектов (абсолютное? за период времени?)
- "в этой объекты на вид охарактеризованы более полно, чем в той" - кол-во атрибутов
- "в этой объекты на вид охарактеризованы более точно, чем в той" - кол-во степеней градации значений атрибутов.

Об основных свойствах данных в этих БД, таких как объективность, полнота, достоверность, адекватность, доступность и актуальность - при помощи такого наблюдения ничего сказать невозможно.

Если хотите сравнить по-настоящему, нужна проверка репрезентативных выборок объектов данных БД, значимых для одной и той же целевой аудитории. Доступ к предметной области, масса времени, статистика и TQM Вам в руки.
...
Рейтинг: 0 / 0
сравнение разных баз
    #35519755
AlexTheRaven компараторНадо получить сответствие рубрик одной базы с рубриками второй базы
Если не делать проверки соответствия данных действительности - можно только сказать
- "в этой объектов на вид больше, чем в той" - кол-во объектов (абсолютное? за период времени?)
- "в этой объекты на вид охарактеризованы более полно, чем в той" - кол-во атрибутов
- "в этой объекты на вид охарактеризованы более точно, чем в той" - кол-во степеней градации значений атрибутов.Чего-то совсем не понял кого вобще может это интересовать
У нас более приземленная задача - свести две разных базы вместе и их заклассифицировать.
В двух разных базах - разные рубрикаторы.
В одной, например, свой собственный, в другой - ОКВЭД.
Надо их как-то скрестить и сопоставить.

Кроме этого хочется получить дополнительный критерий при проверке на дубли.
Если организации имееют похожее название и схожую сферу деятельности - то они претенденты на дубль.

AlexTheRavenОб основных свойствах данных в этих БД, таких как объективность, полнота, достоверность, адекватность, доступность и актуальность - при помощи такого наблюдения ничего сказать невозможно.Будем считать что верим авторам баз на слово
...
Рейтинг: 0 / 0
сравнение разных баз
    #35526694
Николай1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
компаратор AlexTheRaven компараторНадо получить сответствие рубрик одной базы с рубриками второй базы
Если не делать проверки соответствия данных действительности - можно только сказать
- "в этой объектов на вид больше, чем в той" - кол-во объектов (абсолютное? за период времени?)
- "в этой объекты на вид охарактеризованы более полно, чем в той" - кол-во атрибутов
- "в этой объекты на вид охарактеризованы более точно, чем в той" - кол-во степеней градации значений атрибутов.Чего-то совсем не понял кого вобще может это интересовать
У нас более приземленная задача - свести две разных базы вместе и их заклассифицировать.
В двух разных базах - разные рубрикаторы.
В одной, например, свой собственный, в другой - ОКВЭД.
Надо их как-то скрестить и сопоставить.

Кроме этого хочется получить дополнительный критерий при проверке на дубли.
Если организации имееют похожее название и схожую сферу деятельности - то они претенденты на дубль.

AlexTheRavenОб основных свойствах данных в этих БД, таких как объективность, полнота, достоверность, адекватность, доступность и актуальность - при помощи такого наблюдения ничего сказать невозможно.Будем считать что верим авторам баз на слово

Попробовать построить таблицы соответствия между рубрикаторами?
Ну и по названиям юрлиц можно соответствия сделать. Кроме названия и ИНН можно еще адреса регистрации/почтовый/юридический использовать. По нахождению соответствия по юрлицам можно пробовать устанавливать соответствия по рубрикаторам. Возможно удасться за несколько проходов большую часть разобрать. Остальное - ручками.
...
Рейтинг: 0 / 0
сравнение разных баз
    #35526955
Николай1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
компаратор AlexTheRaven компараторНадо получить сответствие рубрик одной базы с рубриками второй базы
Если не делать проверки соответствия данных действительности - можно только сказать
- "в этой объектов на вид больше, чем в той" - кол-во объектов (абсолютное? за период времени?)
- "в этой объекты на вид охарактеризованы более полно, чем в той" - кол-во атрибутов
- "в этой объекты на вид охарактеризованы более точно, чем в той" - кол-во степеней градации значений атрибутов.Чего-то совсем не понял кого вобще может это интересовать
У нас более приземленная задача - свести две разных базы вместе и их заклассифицировать.
В двух разных базах - разные рубрикаторы.
В одной, например, свой собственный, в другой - ОКВЭД.
Надо их как-то скрестить и сопоставить.

Кроме этого хочется получить дополнительный критерий при проверке на дубли.
Если организации имееют похожее название и схожую сферу деятельности - то они претенденты на дубль.

AlexTheRavenОб основных свойствах данных в этих БД, таких как объективность, полнота, достоверность, адекватность, доступность и актуальность - при помощи такого наблюдения ничего сказать невозможно.Будем считать что верим авторам баз на слово

Есть еще идея - можно попытаться построить соответствия между рубриками по количеству предприятий в каждой из рубрик. Поскольку обе базы описывают одно и тоже множество, то может оказаться, что количества будут коррелировать.
...
Рейтинг: 0 / 0
сравнение разных баз
    #35527725
Николай1Попробовать построить таблицы соответствия между рубрикаторами?
Ну и по названиям юрлиц можно соответствия сделать. Кроме названия и ИНН можно еще адреса регистрации/почтовый/юридический использовать. По нахождению соответствия по юрлицам можно пробовать устанавливать соответствия по рубрикаторам. Возможно удасться за несколько проходов большую часть разобрать. Остальное - ручками.У нас сравнение рубрик в базах - не самоцель, а средство (доп. условие для поиска похожести).

Если мы нашли, что какие-то организации являются одинаковыми, то смысла в сравнении рубрик нет.

Что касается названий, то выяснилось, что есть много организаций с одинаковыми названиями и разными сферами деятельности.
Всякие ООО "Агат", "Альбатрос", "Фрегат" итп.
А если есть ИНН в обоих базах, то сравнение будет происходить только по ИНН в 99% случаев.
Остальное будет просто не нужно.
Вот только ИНН почти нигде нет.

Николай1Есть еще идея - можно попытаться построить соответствия между рубриками по количеству предприятий в каждой из рубрик. Поскольку обе базы описывают одно и тоже множество, то может оказаться, что количества будут коррелировать.Это врядли вобще сработает.
Потому что наплненность базы зависит от региона а не от сфкры деятельности.
кто-то в одном регионе сделал базу хорошо кто-то плохо.

А если одна база про все организации а другая только про строительные, то сравнивать по кол-ву вобще не получится.
...
Рейтинг: 0 / 0
сравнение разных баз
    #35540596
Николай1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
компаратор Николай1Попробовать построить таблицы соответствия между рубрикаторами?
Ну и по названиям юрлиц можно соответствия сделать. Кроме названия и ИНН можно еще адреса регистрации/почтовый/юридический использовать. По нахождению соответствия по юрлицам можно пробовать устанавливать соответствия по рубрикаторам. Возможно удасться за несколько проходов большую часть разобрать. Остальное - ручками.У нас сравнение рубрик в базах - не самоцель, а средство (доп. условие для поиска похожести).

Если мы нашли, что какие-то организации являются одинаковыми, то смысла в сравнении рубрик нет.

Что касается названий, то выяснилось, что есть много организаций с одинаковыми названиями и разными сферами деятельности.
Всякие ООО "Агат", "Альбатрос", "Фрегат" итп.
А если есть ИНН в обоих базах, то сравнение будет происходить только по ИНН в 99% случаев.
Остальное будет просто не нужно.
Вот только ИНН почти нигде нет.

Николай1Есть еще идея - можно попытаться построить соответствия между рубриками по количеству предприятий в каждой из рубрик. Поскольку обе базы описывают одно и тоже множество, то может оказаться, что количества будут коррелировать.Это врядли вобще сработает.
Потому что наплненность базы зависит от региона а не от сфкры деятельности.
кто-то в одном регионе сделал базу хорошо кто-то плохо.

А если одна база про все организации а другая только про строительные, то сравнивать по кол-ву вобще не получится.

Это были лишь идеи.
...
Рейтинг: 0 / 0
14 сообщений из 14, страница 1 из 1
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / сравнение разных баз
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]