Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Обсудим - Избежание повторений! / 17 сообщений из 17, страница 1 из 1
31.10.2006, 07:20
    #34092792
johndes
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
Приветствую желающих поразмять думалку...

Случайно на досуге возникла такая задача:
Собирать информацию в базу из 6 видов источников, а в каждом виде ещё по неколько... одна полная запись в базу содержит много информации, одна запись это порядка 25 полей.... при чом в зависимости от источника заполняются разные поля... То есть одна запись формируется из разных источников... Запись об одном и том же объекте может падать в базу много раз, так как не контролируется что надо забивать а что уже есть в базе

Собственно вопрос:
Как избежать повторений?
нужно просто схему работы в общих словах.
...
Рейтинг: 0 / 0
31.10.2006, 07:32
    #34092800
johndes
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
Предложили вариант такой:
ставить запускать сервисный процесс, который будет автоматом проходиться по полям, выявлять сходство записей, ранжировать их.
потом отдельный оператор будет сидеть и в ручную удалять из списка, в котором на первых местах будут самые похожие записи.

либо не удалять, а оставлять, но помечать как относящиеся к одному объекту данных, тогда для каждого объекта будет много записей, и при выводе ифы об объекте формировать данные из всех этих записей на основе авторитетности источников...

ещё есть предложения?
...
Рейтинг: 0 / 0
31.10.2006, 08:18
    #34092834
ILL HEAD
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
предлагаю сэкономить на "отдельном операторе" - удаляйте автоматом ;)
или ваш оператор умнее автомата ? %)
...
Рейтинг: 0 / 0
31.10.2006, 08:51
    #34092868
Обсудим - Избежание повторений!
johndesПредложили вариант такой:
ставить запускать сервисный процесс, который будет автоматом проходиться по полям, выявлять сходство записей, ранжировать их.
потом отдельный оператор будет сидеть и в ручную удалять из списка, в котором на первых местах будут самые похожие записи.

либо не удалять, а оставлять, но помечать как относящиеся к одному объекту данных, тогда для каждого объекта будет много записей, и при выводе ифы об объекте формировать данные из всех этих записей на основе авторитетности источников...

ещё есть предложения?
Поддерживаю удаление "автоматом". Только должны быть выработаны четкие критерии сходства записей, принципы ранжирования и удаления.

Например:
- критерий сходства записей: ID объекта
- принцип ранжирования: дата создания записи
- принцип удаления: удалить все записи с одинаковым ID, если дата создания записи отстоит от текущей даты на N дней.

Если нужна история, то лучше выбрать вариант 2. Только он сведется к 1, ибо архивные записи тоже рано или позно придется удалять, чтобы освободить место для актуальных данных...
...
Рейтинг: 0 / 0
31.10.2006, 08:57
    #34092879
RENaissance
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
johndes
....одна полная запись в базу содержит много информации, одна запись это порядка 25 полей.... при чом в зависимости от источника
заполняются разные поля...

Может стоит посмотреть в сторону EAV...


Posted via ActualForum NNTP Server 1.3
...
Рейтинг: 0 / 0
31.10.2006, 09:29
    #34092940
softwarer
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
RENaissanceМожет стоит посмотреть в сторону EAV...
Согласен, в этом случае данные похожесть записей станет куда менее очевидной и перестанет смущать умы.....
...
Рейтинг: 0 / 0
31.10.2006, 09:41
    #34092980
johndes
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
ILL HEADпредлагаю сэкономить на "отдельном операторе" - удаляйте автоматом ;)
или ваш оператор умнее автомата ? %)
Станислав СПоддерживаю удаление "автоматом". Только должны быть выработаны четкие критерии сходства записей, принципы ранжирования и удаления.

Например:
- критерий сходства записей: ID объекта


Согласен, оператор - это плохой вариант, но id записи - неявляется критерием уникальности записи... и другие поля не являются... потому что могут быть разные объекты с одинаковыми наименованиями, и другими атрибутами...

Предложили определять уникальность по совокупности данных, но и тут, стопор, потому что допускается вариант несколько разных объектов пользуются одинаковым наименованием...

Если бы мы поняли как определять уникальность.....




RENaissance
Может стоит посмотреть в сторону EAV...


Posted via ActualForum NNTP Server 1.3

А поподробнее - что такое TAV?
...
Рейтинг: 0 / 0
31.10.2006, 09:42
    #34092986
johndes
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
что такое EAV?
...
Рейтинг: 0 / 0
31.10.2006, 09:46
    #34092991
RENaissance
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
Воспользуйтесь поиском на этом форуме по ключевой фразе EAV.


Posted via ActualForum NNTP Server 1.3
...
Рейтинг: 0 / 0
31.10.2006, 10:58
    #34093319
proposed amendment
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
RENaissance
Воспользуйтесь поиском на этом форуме по ключевой фразе EAV.


и еще было-бы не плохо заглянуть в справочники Розенталя
...
Рейтинг: 0 / 0
31.10.2006, 11:06
    #34093355
RENaissance
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
proposed amendment
и еще было-бы не плохо заглянуть в справочники Розенталя


З.Ы Русский язык - один из самых сложных.


Posted via ActualForum NNTP Server 1.3
...
Рейтинг: 0 / 0
31.10.2006, 11:54
    #34093604
johndes
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
Хватит коры мочить :)

Посмотрел что такое EAV... Думаю навряд ли подойдёт... так как у нас количество полей жёстко задано, да и сидеть потом 10-ти этажные запросы тоже не вариант...
Есть ещё варианты?
...
Рейтинг: 0 / 0
31.10.2006, 11:57
    #34093615
Обсудим - Избежание повторений!
http://www.mis.ibs.ru/content/sap/rubr65/rubr-657.asp
...
Рейтинг: 0 / 0
31.10.2006, 12:14
    #34093685
johndes
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
всё покупаю... )))
...
Рейтинг: 0 / 0
31.10.2006, 15:23
    #34094608
ModelR
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
johndesКак избежать повторений?
1.Обнаружить повторения
2.Удалить повторения автоматом
3.Обнаружить подозрения на повторения.
4.Разобраться с подзрительными данными ручками.
...
Рейтинг: 0 / 0
31.10.2006, 17:07
    #34095155
KGP
KGP
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
ModelR johndesКак избежать повторений?
1.Обнаружить повторения
2.Удалить повторения автоматом
3.Обнаружить подозрения на повторения.
4.Разобраться с подзрительными данными ручками.

+ Верный путь для анализа!
1. Определить правило, что считать повторением
2. Определить правило, что какое из повторений удалять
3. Определить правило, когда удалять повторения
4. Написать ПО, работающее по 1+2+3

5. Определить правило, что считать подозрением повторением
6. Определить правило, что какое из подозрений повторений приоритетнее к удалению
7. Определить правило, когда можно рекомендовать оператору удалять подозрение повторения
8. Написать ПО для оператора с учетом 5+6+7
...
Рейтинг: 0 / 0
01.11.2006, 04:24
    #34096023
johndes
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Обсудим - Избежание повторений!
всем спасибо... схемы просто великолепные!
...
Рейтинг: 0 / 0
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Обсудим - Избежание повторений! / 17 сообщений из 17, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]