|
|
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
Приветствую желающих поразмять думалку... Случайно на досуге возникла такая задача: Собирать информацию в базу из 6 видов источников, а в каждом виде ещё по неколько... одна полная запись в базу содержит много информации, одна запись это порядка 25 полей.... при чом в зависимости от источника заполняются разные поля... То есть одна запись формируется из разных источников... Запись об одном и том же объекте может падать в базу много раз, так как не контролируется что надо забивать а что уже есть в базе Собственно вопрос: Как избежать повторений? нужно просто схему работы в общих словах. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 07:20 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
Предложили вариант такой: ставить запускать сервисный процесс, который будет автоматом проходиться по полям, выявлять сходство записей, ранжировать их. потом отдельный оператор будет сидеть и в ручную удалять из списка, в котором на первых местах будут самые похожие записи. либо не удалять, а оставлять, но помечать как относящиеся к одному объекту данных, тогда для каждого объекта будет много записей, и при выводе ифы об объекте формировать данные из всех этих записей на основе авторитетности источников... ещё есть предложения? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 07:32 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
предлагаю сэкономить на "отдельном операторе" - удаляйте автоматом ;) или ваш оператор умнее автомата ? %) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 08:18 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
johndesПредложили вариант такой: ставить запускать сервисный процесс, который будет автоматом проходиться по полям, выявлять сходство записей, ранжировать их. потом отдельный оператор будет сидеть и в ручную удалять из списка, в котором на первых местах будут самые похожие записи. либо не удалять, а оставлять, но помечать как относящиеся к одному объекту данных, тогда для каждого объекта будет много записей, и при выводе ифы об объекте формировать данные из всех этих записей на основе авторитетности источников... ещё есть предложения? Поддерживаю удаление "автоматом". Только должны быть выработаны четкие критерии сходства записей, принципы ранжирования и удаления. Например: - критерий сходства записей: ID объекта - принцип ранжирования: дата создания записи - принцип удаления: удалить все записи с одинаковым ID, если дата создания записи отстоит от текущей даты на N дней. Если нужна история, то лучше выбрать вариант 2. Только он сведется к 1, ибо архивные записи тоже рано или позно придется удалять, чтобы освободить место для актуальных данных... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 08:51 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
johndes ....одна полная запись в базу содержит много информации, одна запись это порядка 25 полей.... при чом в зависимости от источника заполняются разные поля... Может стоит посмотреть в сторону EAV... Posted via ActualForum NNTP Server 1.3 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 08:57 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
RENaissanceМожет стоит посмотреть в сторону EAV... Согласен, в этом случае данные похожесть записей станет куда менее очевидной и перестанет смущать умы..... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 09:29 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
ILL HEADпредлагаю сэкономить на "отдельном операторе" - удаляйте автоматом ;) или ваш оператор умнее автомата ? %) Станислав СПоддерживаю удаление "автоматом". Только должны быть выработаны четкие критерии сходства записей, принципы ранжирования и удаления. Например: - критерий сходства записей: ID объекта Согласен, оператор - это плохой вариант, но id записи - неявляется критерием уникальности записи... и другие поля не являются... потому что могут быть разные объекты с одинаковыми наименованиями, и другими атрибутами... Предложили определять уникальность по совокупности данных, но и тут, стопор, потому что допускается вариант несколько разных объектов пользуются одинаковым наименованием... Если бы мы поняли как определять уникальность..... RENaissance Может стоит посмотреть в сторону EAV... Posted via ActualForum NNTP Server 1.3 А поподробнее - что такое TAV? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 09:41 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
что такое EAV? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 09:42 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
Воспользуйтесь поиском на этом форуме по ключевой фразе EAV. Posted via ActualForum NNTP Server 1.3 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 09:46 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
RENaissance Воспользуйтесь поиском на этом форуме по ключевой фразе EAV. и еще было-бы не плохо заглянуть в справочники Розенталя ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 10:58 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
proposed amendment и еще было-бы не плохо заглянуть в справочники Розенталя З.Ы Русский язык - один из самых сложных. Posted via ActualForum NNTP Server 1.3 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 11:06 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
Хватит коры мочить :) Посмотрел что такое EAV... Думаю навряд ли подойдёт... так как у нас количество полей жёстко задано, да и сидеть потом 10-ти этажные запросы тоже не вариант... Есть ещё варианты? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 11:54 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
http://www.mis.ibs.ru/content/sap/rubr65/rubr-657.asp ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 11:57 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
всё покупаю... ))) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 12:14 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
johndesКак избежать повторений? 1.Обнаружить повторения 2.Удалить повторения автоматом 3.Обнаружить подозрения на повторения. 4.Разобраться с подзрительными данными ручками. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 15:23 |
|
||
|
Обсудим - Избежание повторений!
|
|||
|---|---|---|---|
|
#18+
ModelR johndesКак избежать повторений? 1.Обнаружить повторения 2.Удалить повторения автоматом 3.Обнаружить подозрения на повторения. 4.Разобраться с подзрительными данными ручками. + Верный путь для анализа! 1. Определить правило, что считать повторением 2. Определить правило, что какое из повторений удалять 3. Определить правило, когда удалять повторения 4. Написать ПО, работающее по 1+2+3 5. Определить правило, что считать подозрением повторением 6. Определить правило, что какое из подозрений повторений приоритетнее к удалению 7. Определить правило, когда можно рекомендовать оператору удалять подозрение повторения 8. Написать ПО для оператора с учетом 5+6+7 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.10.2006, 17:07 |
|
||
|
|

start [/forum/topic.php?fid=32&msg=34092800&tid=1544945]: |
0ms |
get settings: |
9ms |
get forum list: |
16ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
156ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
50ms |
get tp. blocked users: |
1ms |
| others: | 227ms |
| total: | 476ms |

| 0 / 0 |
