powered by simpleCommunicator - 2.0.51     © 2025 Programmizd 02
Форумы / Разработка информационных систем [игнор отключен] [закрыт для гостей] / проверка уникальности физлиц
25 сообщений из 65, страница 1 из 3
проверка уникальности физлиц
    #34057410
aag
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А вот из интереса (а также по... кхм, просьбе начальства) как кто решает проблему уникальности вводимых в ПО физиков?
Скажем, у нас примерно две трети данных поступают при ручном вводе, оставшаяся треть - разные автоматические закачки и импорты. Физиков много.
Реквизиты - обычные - ФИО, дата/место рождения, паспортные данные, адреса. Поскольку начиналось все уже давно, не все эти данные есть.
Наверняка у многих похожая ситуация.
Поделитесь - у кого какие придуманы алгоритмы исключения дублирования? Или же эта проблема не интересует?

Nobody faults but mine... (LZ)
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34057419
Alexandr Kochmin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a> Автор: aag
a> А вот из интереса (а также по... кхм, просьбе начальства) как кто решает
a> проблему уникальности вводимых в ПО физиков? Скажем, у нас примерно две
a> трети данных поступают при ручном вводе, оставшаяся треть - разные
a> автоматические закачки и импорты. Физиков много. Реквизиты - обычные -
a> ФИО, дата/место рождения, паспортные данные, адреса. Поскольку
a> начиналось все уже давно, не все эти данные есть. Наверняка у многих
a> похожая ситуация. Поделитесь - у кого какие придуманы алгоритмы
a> исключения дублирования? Или же эта проблема не интересует?

ручная проверка+мастер проверки+необходимые функции: объединение нескольких в одного, поиск похожих и т.п.
Ну и при ручном вводе правильные подсказки полезны.

--
С уважением
Кочмин Александр

Posted via ActualForum NNTP Server 1.3
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34057482
Фотография Александр Гoлдун
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
aagПоделитесь - у кого какие придуманы алгоритмы исключения дублирования? Или же эта проблема не интересует?

Алгоритм номер ноль - механизм поиска по форуму на SQL.RU.
Как бороться с дубликатами в справочниках
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34057490
aag
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Alexandr Kochmin
Коротко и неясно.
Я и спрашиваю - алгоритм поиска похожих. У вас такие проверки есть? Если да, то поделитесь, как ищите. По каким атрибутам, каким образом?

Nobody faults but mine... (LZ)
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34057537
aag
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Александр Гoлдун
Этот алгоритм в нулевую очередь и был задействован. Скажу больше - если вы чуть-чуть прокрутите тот топик вниз, то там мой пост найдется :)
Но я спрашиваю о другом - не о стратегии, не о том бороться или не бороться и кому боротться. А о применяемых разработчиками алгоритмах поиска/сравнения.

Nobody faults but mine... (LZ)
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058012
Scarface
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Мы сравниваем ФИО, почтовый индекс, населенный пункт проживания и все цифры из адресной строки (в нее входят улица и дом/корпус/квартира, КЛАДР не используем). Если все равенства выполняются, клиент -- suspect . Но окончательное решение о том, кого считать двойником, принимает оператор.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058140
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мы действуем так. В первую очередь ищем подходящих кандидатов по "id из внешней системы" (если есть), "тип-номер документа, удостоверяющего личность" (если есть), "ИНН" (если есть). Если не совпало, считаем запись новой. Если совпало, проверяем совпадение паспортных реквизитов, ИНН и даты рождения. Если все существующее совпало, полагаем что нашли героя. Если же "наполовину разошлись", например при том же паспорте другой ИНН, отбрасываем в ошибки на ручной разбор.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058332
aag
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 softwarer
авторВ первую очередь ищем подходящих кандидатов по "id из внешней системы" (если есть), "тип-номер документа, удостоверяющего личность" (если есть), "ИНН" (если есть). Если не совпало, считаем запись новой. Если совпало, проверяем совпадение паспортных реквизитов, ИНН и даты рождения.
Несколько не понял - если совпал номер ДУЛ, снова проверяете совпадение уже полностью всех реквизитов паспорта?
ИНН у физлиц, к сожалению не всегда возможно получить.

Nobody faults but mine... (LZ)
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058338
aag
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Scarface
"все цифры из адресной строки" - интересное решение. И насколько хорошо ловит?

Nobody faults but mine... (LZ)
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058505
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
aagНесколько не понял - если совпал номер ДУЛ, снова проверяете совпадение уже полностью всех реквизитов паспорта?
Да. Чтобы исключить ошибочное отождествление из-за опечатки в номере.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058515
Фотография BusyMan
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Это все-равно полуручная полуавтоматическая работа.
При вводе данных программа может только выдать частично похожих людей (с той же ФИО, но другой ИНН и т.п.), но вот принять решение о дублировани - дело рук человека.

P.S. Можно просто Бизик love.busyman.ru ICQ# 131833549
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058523
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
aagИНН у физлиц, к сожалению не всегда возможно получить.
Паспорт, к сожалению, тоже. Я при изложении упростил алгоритм - чтобы подчеркнуть основу - а вообще у нас ситуация довольно интересная: нет ни одного обязательного идентифицирующего реквизита, нужен автоматический вердикт с практической гарантией недопущения ложного слияния, данные могут поступить из разных источников с интервалом в годы.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058612
aag
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 BusyMan
авторПри вводе данных программа может только выдать частично похожих людей (с той же ФИО, но другой ИНН и т.п.)
Меня именно алгоритм поиска похожести и интересует.

2 softwarer
автор Я при изложении упростил алгоритм - чтобы подчеркнуть основу - а вообще у нас ситуация довольно интересная: нет ни одного обязательного идентифицирующего реквизита, нужен автоматический вердикт с практической гарантией недопущения ложного слияния, данные могут поступить из разных источников с интервалом в годы.

Вот! О том я и говорю. Ситуация абсолютно такая же. Поэтому и интересно, какие другие велосипеды изобретены.

Nobody faults but mine... (LZ)
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058660
Фотография Александр Гoлдун
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
aag
Скажем, у нас примерно две трети данных поступают при ручном вводе, оставшаяся треть - разные автоматические закачки и импорты. Физиков много.

Какой примерный объем?
aag
Реквизиты - обычные - ФИО, дата/место рождения, паспортные данные, адреса. Поскольку начиналось все уже давно, не все эти данные есть.

Ну хоть что-нибудь обязательное (или почти обязательное) есть? ФИО например.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058727
aag
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Александр Гoлдун
Не буду раскрывать для чистоты эксперимента :) Мне хочется узнать именно как другие разработчики решают эту проблему, а не рекомендации (пусть даже и правильные), как ее можно решить в нашем случае.

Хотя, кстати, это хороший вопрос уже ответившим.
softwarer, а каков (хотя бы приблизительно, скажем, порядок) обьем физиков в вашей базе?
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34058781
Фотография Александр Гoлдун
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
aag2 Александр Гoлдун
Не буду раскрывать для чистоты эксперимента :)

Над кем экспериментируешь? Хочешь оценить чужую эрудицию в решении абстрактных задач или верность своих идей в решении конкретной задачи?

Способов и вариаций можно придумать много. Можно тупо последовательно сравнивать заполненные реквизиты. Можно вычислять вероятность тождества, выдав весовые коэфиициенты атрибутам, их комбинациям либо эвристикам. Конкретные атрибуты можно сравнивать на равенство, а можно вычислять степень похожести, чтобы уменьшить влияние опечаток и т.д.

Выбор конкретного способа сильно зависит от постановки задачи и условий. Это в том числе и объемы данных, и характеристики нагрузки с требованиями к быстродействию. Требуется ли выдавать решение в пакетном режиме полностью автоматом, либо чисто интерактивный режим, либо вариации полуавтоматического режима и т.п.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34059419
aag
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Александр Гoлдун
авторХочешь оценить чужую эрудицию в решении абстрактных задач или верность своих идей в решении конкретной задачи?
Разумеется, нет. Я хочу узнать чужую реализацию совершенно конкретных (пусть и чужих) задач. А уж оценить степень применимости к наших условиям я смогу самостоятельно.
автор2 Способов и вариаций можно придумать много...
Вот именно. Поэтому я не хочу чтобы здесь мне наперебой предлагали абстрактные способы как бы, по мнению автора, можно было бы попытаться решить такую задачу для моих условий. Я не хочу читать, что можно попробовать выдать "весовые коэффициенты атрибутам, их комбинациям либо эвристикам". Я хочу услышать как эту задачу уже решили для своих. И если использовали весовые коэффициенты и комбинации - то какие именно коэф-ты и комбинации.

Вы можете привести мне такой конкретный пример - как реализована такая проверка у вас?

Nobody faults but mine... (LZ)
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34059548
Фотография Александр Гoлдун
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
aag
Вы можете привести мне такой конкретный пример - как реализована такая проверка у вас?

По физикам - нет. Только по контрагентам. Но там просто реализовано и только для ручного ввода. Пример приводил ранее . После ввода названия пользователю выдается перечень контрагентов с наиболее похожими названиями и он дальше сам принимает решение на основе предоставленных данных.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34059808
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
aagsoftwarer, а каков (хотя бы приблизительно, скажем, порядок) обьем физиков в вашей базе?
Копеечный. Мы еще не добрались даже до опытной эксплуатации.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34060732
one706
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
У нас уникальность физ.лица отслеживается по
Ф + И + О + инд.налоговый код + дата рождения
(больших подробностей не требуется).
В момент ввода, по мере уточнения, Ф, И, О имеющиеся в словарях "подставляются" пользователю для выбора (типа выпадающий список). Если вводимые данные не совпадают с имеющимися в словарях, то принимаются как новые.
Обязательны к заполнению Фамилия и Имя (минимальный набор атрибутов, характеризующий человека и известный всегда).
Объемы таблиц (база начата в далеком 1997, еще на dBase):
Фамилия - 111 000 записей
Имя - 8 200
Отчество - 11 000
Итоговый справочник по клиентам - около 800 000 записей.
Сервер БД - MS SQL.
Компонент самописный, время отклика на ввод - менее 1сек (за машинисткой конечно не успеть, но за скоростью набора рядового пользователя ("двухпальцевого") отлично поспевает).
Как правило достаточно набрать 5-6 символов, для сокращения списка предлагаемых вариантов до разумного (5-10 строк).
На этапе разработки большая засада была когда в таблицы конвертнули реальные объемы. Поэтому пришлось писать свой компонент.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34061141
aag
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Спасибо за ответы.

2 one706
А если такие ФИО уже есть, а это однофамилец? Тем более, если в базе есть такая Ф, но нет И. И если нет ИНН?
Компонент, выбирающий за секунду из 111 тыс. по каждой букве - это серьезно. Кеш, какие-то предзапросы?


Nobody faults but mine... (LZ)
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34061809
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
aagА если такие ФИО уже есть, а это однофамилец?
Полные тезки с одинаковой датой рождения приемлимо редки. Куда менее приятны дамы, меняющие фамилию и номер документа.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34062442
one706
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
aag
А если такие ФИО уже есть, а это однофамилец? .. И если нет ИНН?

Решение зависит от поставленных задач.
В нашем случае, если не предоставлены доп. сведения (ИНН или дата р.) - принимается решение, что это тот же клиент, что есть в базе :-( (оператором, данные вносятся из журналов, т.е. у реального чела ничего не уточниш). Были попытки доп. вносить серию, номер паспорта, но после присвоения ИНН это дело так и не получило развития. Вообщем заказчика устраивает такая ситуация. Предприятие коммунальное (т.е. за клиентами не гонится), поэтому особо не заморачивается.
Вообщем выходит, что если данные полные - клиент всегда идентифицируется правильно, если неполные - то как развести двух Ивановых Иван Ивановичей не имея других сведений? Может это один, может два. Оператор заочно точно никак не сможет определить.
Или у кого есть соображение на этот счет?

aag
Тем более, если в базе есть такая Ф, но нет И.
Не понял.
Если нет имени, оно тут же по выходу из поля ввода имени вносится, как новое в таблицу имен (с подтверждением оператора естессно) и используется для формирования ФИО.

aag
Компонент, выбирающий за секунду из 111 тыс. по каждой букве - это серьезно. Кеш, какие-то предзапросы?

Чесно скажу, в подробности не вникал. Ставлю задачи, а решают их другие.
Но не кэш, эт точно.
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34062481
one706
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
для ясности ситуации
...
Рейтинг: 0 / 0
проверка уникальности физлиц
    #34593913
Фотография Tаrantino
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Скажем так у нас предприятие коммерческое и за клиентами гонится.

И так есть фронтовая часть, где оператор забивает анкету клиента (оператор материально заинтересован в привлечении клиента). В частности обязательно вводятся Фамилия, Имя, Дата рождения и номер паспорта причем для этих полей используется двойной а иногда и тройной ввод для избежания ошибок. Если менялся паспорт то вносится и его номер, если менялись ФИО то вносятся и они. После ввода во фронтовой части происходит проверка на действительно паспорта. Если паспорт не действителен клиент "посылается" если действителен то данные осылаются в бэк-офис.

В бэк-офисе происходит поиск этого клиента в центральной базе по так называем жестким и мягким условиям. Условия менятся могут. Скажем жесткие условия это совпадение ФИО + дата рождения + № паспорта. Если клиент найден по этим условиям то однозначно мы его определили. Мягкие условия могут быть такие: ФИО+дата рождения ИЛИ № паспорта ИЛИ Старая ФИО + дата рождения ИЛИ Старый № паспорта. В таком случае выводится список найденных клиентов (+ доп. поля вроде адресов) и оператор принимает решение об идентификации клиента, оператор отвественнен за идентификацию.
...
Рейтинг: 0 / 0
25 сообщений из 65, страница 1 из 3
Форумы / Разработка информационных систем [игнор отключен] [закрыт для гостей] / проверка уникальности физлиц
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]