powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Обсудим - Избежание повторений!
17 сообщений из 17, страница 1 из 1
Обсудим - Избежание повторений!
    #34092792
Фотография johndes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Приветствую желающих поразмять думалку...

Случайно на досуге возникла такая задача:
Собирать информацию в базу из 6 видов источников, а в каждом виде ещё по неколько... одна полная запись в базу содержит много информации, одна запись это порядка 25 полей.... при чом в зависимости от источника заполняются разные поля... То есть одна запись формируется из разных источников... Запись об одном и том же объекте может падать в базу много раз, так как не контролируется что надо забивать а что уже есть в базе

Собственно вопрос:
Как избежать повторений?
нужно просто схему работы в общих словах.
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34092800
Фотография johndes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Предложили вариант такой:
ставить запускать сервисный процесс, который будет автоматом проходиться по полям, выявлять сходство записей, ранжировать их.
потом отдельный оператор будет сидеть и в ручную удалять из списка, в котором на первых местах будут самые похожие записи.

либо не удалять, а оставлять, но помечать как относящиеся к одному объекту данных, тогда для каждого объекта будет много записей, и при выводе ифы об объекте формировать данные из всех этих записей на основе авторитетности источников...

ещё есть предложения?
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34092834
Фотография ILL HEAD
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
предлагаю сэкономить на "отдельном операторе" - удаляйте автоматом ;)
или ваш оператор умнее автомата ? %)
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34092868
johndesПредложили вариант такой:
ставить запускать сервисный процесс, который будет автоматом проходиться по полям, выявлять сходство записей, ранжировать их.
потом отдельный оператор будет сидеть и в ручную удалять из списка, в котором на первых местах будут самые похожие записи.

либо не удалять, а оставлять, но помечать как относящиеся к одному объекту данных, тогда для каждого объекта будет много записей, и при выводе ифы об объекте формировать данные из всех этих записей на основе авторитетности источников...

ещё есть предложения?
Поддерживаю удаление "автоматом". Только должны быть выработаны четкие критерии сходства записей, принципы ранжирования и удаления.

Например:
- критерий сходства записей: ID объекта
- принцип ранжирования: дата создания записи
- принцип удаления: удалить все записи с одинаковым ID, если дата создания записи отстоит от текущей даты на N дней.

Если нужна история, то лучше выбрать вариант 2. Только он сведется к 1, ибо архивные записи тоже рано или позно придется удалять, чтобы освободить место для актуальных данных...
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34092879
RENaissance
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
johndes
....одна полная запись в базу содержит много информации, одна запись это порядка 25 полей.... при чом в зависимости от источника
заполняются разные поля...

Может стоит посмотреть в сторону EAV...


Posted via ActualForum NNTP Server 1.3
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34092940
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
RENaissanceМожет стоит посмотреть в сторону EAV...
Согласен, в этом случае данные похожесть записей станет куда менее очевидной и перестанет смущать умы.....
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34092980
Фотография johndes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ILL HEADпредлагаю сэкономить на "отдельном операторе" - удаляйте автоматом ;)
или ваш оператор умнее автомата ? %)
Станислав СПоддерживаю удаление "автоматом". Только должны быть выработаны четкие критерии сходства записей, принципы ранжирования и удаления.

Например:
- критерий сходства записей: ID объекта


Согласен, оператор - это плохой вариант, но id записи - неявляется критерием уникальности записи... и другие поля не являются... потому что могут быть разные объекты с одинаковыми наименованиями, и другими атрибутами...

Предложили определять уникальность по совокупности данных, но и тут, стопор, потому что допускается вариант несколько разных объектов пользуются одинаковым наименованием...

Если бы мы поняли как определять уникальность.....




RENaissance
Может стоит посмотреть в сторону EAV...


Posted via ActualForum NNTP Server 1.3

А поподробнее - что такое TAV?
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34092986
Фотография johndes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
что такое EAV?
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34092991
RENaissance
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Воспользуйтесь поиском на этом форуме по ключевой фразе EAV.


Posted via ActualForum NNTP Server 1.3
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34093319
Фотография proposed amendment
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
RENaissance
Воспользуйтесь поиском на этом форуме по ключевой фразе EAV.


и еще было-бы не плохо заглянуть в справочники Розенталя
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34093355
RENaissance
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
proposed amendment
и еще было-бы не плохо заглянуть в справочники Розенталя


З.Ы Русский язык - один из самых сложных.


Posted via ActualForum NNTP Server 1.3
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34093604
Фотография johndes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хватит коры мочить :)

Посмотрел что такое EAV... Думаю навряд ли подойдёт... так как у нас количество полей жёстко задано, да и сидеть потом 10-ти этажные запросы тоже не вариант...
Есть ещё варианты?
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34093615
http://www.mis.ibs.ru/content/sap/rubr65/rubr-657.asp
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34093685
Фотография johndes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
всё покупаю... )))
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34094608
ModelR
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
johndesКак избежать повторений?
1.Обнаружить повторения
2.Удалить повторения автоматом
3.Обнаружить подозрения на повторения.
4.Разобраться с подзрительными данными ручками.
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34095155
KGP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ModelR johndesКак избежать повторений?
1.Обнаружить повторения
2.Удалить повторения автоматом
3.Обнаружить подозрения на повторения.
4.Разобраться с подзрительными данными ручками.

+ Верный путь для анализа!
1. Определить правило, что считать повторением
2. Определить правило, что какое из повторений удалять
3. Определить правило, когда удалять повторения
4. Написать ПО, работающее по 1+2+3

5. Определить правило, что считать подозрением повторением
6. Определить правило, что какое из подозрений повторений приоритетнее к удалению
7. Определить правило, когда можно рекомендовать оператору удалять подозрение повторения
8. Написать ПО для оператора с учетом 5+6+7
...
Рейтинг: 0 / 0
Обсудим - Избежание повторений!
    #34096023
Фотография johndes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
всем спасибо... схемы просто великолепные!
...
Рейтинг: 0 / 0
17 сообщений из 17, страница 1 из 1
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Обсудим - Избежание повторений!
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]