|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
А вот из интереса (а также по... кхм, просьбе начальства) как кто решает проблему уникальности вводимых в ПО физиков? Скажем, у нас примерно две трети данных поступают при ручном вводе, оставшаяся треть - разные автоматические закачки и импорты. Физиков много. Реквизиты - обычные - ФИО, дата/место рождения, паспортные данные, адреса. Поскольку начиналось все уже давно, не все эти данные есть. Наверняка у многих похожая ситуация. Поделитесь - у кого какие придуманы алгоритмы исключения дублирования? Или же эта проблема не интересует? Nobody faults but mine... (LZ) ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 15:11 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
a> Автор: aag a> А вот из интереса (а также по... кхм, просьбе начальства) как кто решает a> проблему уникальности вводимых в ПО физиков? Скажем, у нас примерно две a> трети данных поступают при ручном вводе, оставшаяся треть - разные a> автоматические закачки и импорты. Физиков много. Реквизиты - обычные - a> ФИО, дата/место рождения, паспортные данные, адреса. Поскольку a> начиналось все уже давно, не все эти данные есть. Наверняка у многих a> похожая ситуация. Поделитесь - у кого какие придуманы алгоритмы a> исключения дублирования? Или же эта проблема не интересует? ручная проверка+мастер проверки+необходимые функции: объединение нескольких в одного, поиск похожих и т.п. Ну и при ручном вводе правильные подсказки полезны. -- С уважением Кочмин Александр Posted via ActualForum NNTP Server 1.3 ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 15:14 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
aagПоделитесь - у кого какие придуманы алгоритмы исключения дублирования? Или же эта проблема не интересует? Алгоритм номер ноль - механизм поиска по форуму на SQL.RU. Как бороться с дубликатами в справочниках ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 15:31 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
2 Alexandr Kochmin Коротко и неясно. Я и спрашиваю - алгоритм поиска похожих. У вас такие проверки есть? Если да, то поделитесь, как ищите. По каким атрибутам, каким образом? Nobody faults but mine... (LZ) ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 15:32 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
2 Александр Гoлдун Этот алгоритм в нулевую очередь и был задействован. Скажу больше - если вы чуть-чуть прокрутите тот топик вниз, то там мой пост найдется :) Но я спрашиваю о другом - не о стратегии, не о том бороться или не бороться и кому боротться. А о применяемых разработчиками алгоритмах поиска/сравнения. Nobody faults but mine... (LZ) ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 15:40 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
Мы сравниваем ФИО, почтовый индекс, населенный пункт проживания и все цифры из адресной строки (в нее входят улица и дом/корпус/квартира, КЛАДР не используем). Если все равенства выполняются, клиент -- suspect . Но окончательное решение о том, кого считать двойником, принимает оператор. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 17:24 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
Мы действуем так. В первую очередь ищем подходящих кандидатов по "id из внешней системы" (если есть), "тип-номер документа, удостоверяющего личность" (если есть), "ИНН" (если есть). Если не совпало, считаем запись новой. Если совпало, проверяем совпадение паспортных реквизитов, ИНН и даты рождения. Если все существующее совпало, полагаем что нашли героя. Если же "наполовину разошлись", например при том же паспорте другой ИНН, отбрасываем в ошибки на ручной разбор. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 17:58 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
2 softwarer авторВ первую очередь ищем подходящих кандидатов по "id из внешней системы" (если есть), "тип-номер документа, удостоверяющего личность" (если есть), "ИНН" (если есть). Если не совпало, считаем запись новой. Если совпало, проверяем совпадение паспортных реквизитов, ИНН и даты рождения. Несколько не понял - если совпал номер ДУЛ, снова проверяете совпадение уже полностью всех реквизитов паспорта? ИНН у физлиц, к сожалению не всегда возможно получить. Nobody faults but mine... (LZ) ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 18:50 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
2 Scarface "все цифры из адресной строки" - интересное решение. И насколько хорошо ловит? Nobody faults but mine... (LZ) ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 18:52 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
aagНесколько не понял - если совпал номер ДУЛ, снова проверяете совпадение уже полностью всех реквизитов паспорта? Да. Чтобы исключить ошибочное отождествление из-за опечатки в номере. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 19:51 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
Это все-равно полуручная полуавтоматическая работа. При вводе данных программа может только выдать частично похожих людей (с той же ФИО, но другой ИНН и т.п.), но вот принять решение о дублировани - дело рук человека. P.S. Можно просто Бизик love.busyman.ru ICQ# 131833549 ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 19:56 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
aagИНН у физлиц, к сожалению не всегда возможно получить. Паспорт, к сожалению, тоже. Я при изложении упростил алгоритм - чтобы подчеркнуть основу - а вообще у нас ситуация довольно интересная: нет ни одного обязательного идентифицирующего реквизита, нужен автоматический вердикт с практической гарантией недопущения ложного слияния, данные могут поступить из разных источников с интервалом в годы. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 20:00 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
2 BusyMan авторПри вводе данных программа может только выдать частично похожих людей (с той же ФИО, но другой ИНН и т.п.) Меня именно алгоритм поиска похожести и интересует. 2 softwarer автор Я при изложении упростил алгоритм - чтобы подчеркнуть основу - а вообще у нас ситуация довольно интересная: нет ни одного обязательного идентифицирующего реквизита, нужен автоматический вердикт с практической гарантией недопущения ложного слияния, данные могут поступить из разных источников с интервалом в годы. Вот! О том я и говорю. Ситуация абсолютно такая же. Поэтому и интересно, какие другие велосипеды изобретены. Nobody faults but mine... (LZ) ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 21:16 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
aag Скажем, у нас примерно две трети данных поступают при ручном вводе, оставшаяся треть - разные автоматические закачки и импорты. Физиков много. Какой примерный объем? aag Реквизиты - обычные - ФИО, дата/место рождения, паспортные данные, адреса. Поскольку начиналось все уже давно, не все эти данные есть. Ну хоть что-нибудь обязательное (или почти обязательное) есть? ФИО например. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 22:00 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
2 Александр Гoлдун Не буду раскрывать для чистоты эксперимента :) Мне хочется узнать именно как другие разработчики решают эту проблему, а не рекомендации (пусть даже и правильные), как ее можно решить в нашем случае. Хотя, кстати, это хороший вопрос уже ответившим. softwarer, а каков (хотя бы приблизительно, скажем, порядок) обьем физиков в вашей базе? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2006, 23:37 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
aag2 Александр Гoлдун Не буду раскрывать для чистоты эксперимента :) Над кем экспериментируешь? Хочешь оценить чужую эрудицию в решении абстрактных задач или верность своих идей в решении конкретной задачи? Способов и вариаций можно придумать много. Можно тупо последовательно сравнивать заполненные реквизиты. Можно вычислять вероятность тождества, выдав весовые коэфиициенты атрибутам, их комбинациям либо эвристикам. Конкретные атрибуты можно сравнивать на равенство, а можно вычислять степень похожести, чтобы уменьшить влияние опечаток и т.д. Выбор конкретного способа сильно зависит от постановки задачи и условий. Это в том числе и объемы данных, и характеристики нагрузки с требованиями к быстродействию. Требуется ли выдавать решение в пакетном режиме полностью автоматом, либо чисто интерактивный режим, либо вариации полуавтоматического режима и т.п. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.10.2006, 00:44 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
2 Александр Гoлдун авторХочешь оценить чужую эрудицию в решении абстрактных задач или верность своих идей в решении конкретной задачи? Разумеется, нет. Я хочу узнать чужую реализацию совершенно конкретных (пусть и чужих) задач. А уж оценить степень применимости к наших условиям я смогу самостоятельно. автор2 Способов и вариаций можно придумать много... Вот именно. Поэтому я не хочу чтобы здесь мне наперебой предлагали абстрактные способы как бы, по мнению автора, можно было бы попытаться решить такую задачу для моих условий. Я не хочу читать, что можно попробовать выдать "весовые коэффициенты атрибутам, их комбинациям либо эвристикам". Я хочу услышать как эту задачу уже решили для своих. И если использовали весовые коэффициенты и комбинации - то какие именно коэф-ты и комбинации. Вы можете привести мне такой конкретный пример - как реализована такая проверка у вас? Nobody faults but mine... (LZ) ... |
|||
:
Нравится:
Не нравится:
|
|||
17.10.2006, 11:22 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
aag Вы можете привести мне такой конкретный пример - как реализована такая проверка у вас? По физикам - нет. Только по контрагентам. Но там просто реализовано и только для ручного ввода. Пример приводил ранее . После ввода названия пользователю выдается перечень контрагентов с наиболее похожими названиями и он дальше сам принимает решение на основе предоставленных данных. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.10.2006, 11:57 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
aagsoftwarer, а каков (хотя бы приблизительно, скажем, порядок) обьем физиков в вашей базе? Копеечный. Мы еще не добрались даже до опытной эксплуатации. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.10.2006, 12:59 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
У нас уникальность физ.лица отслеживается по Ф + И + О + инд.налоговый код + дата рождения (больших подробностей не требуется). В момент ввода, по мере уточнения, Ф, И, О имеющиеся в словарях "подставляются" пользователю для выбора (типа выпадающий список). Если вводимые данные не совпадают с имеющимися в словарях, то принимаются как новые. Обязательны к заполнению Фамилия и Имя (минимальный набор атрибутов, характеризующий человека и известный всегда). Объемы таблиц (база начата в далеком 1997, еще на dBase): Фамилия - 111 000 записей Имя - 8 200 Отчество - 11 000 Итоговый справочник по клиентам - около 800 000 записей. Сервер БД - MS SQL. Компонент самописный, время отклика на ввод - менее 1сек (за машинисткой конечно не успеть, но за скоростью набора рядового пользователя ("двухпальцевого") отлично поспевает). Как правило достаточно набрать 5-6 символов, для сокращения списка предлагаемых вариантов до разумного (5-10 строк). На этапе разработки большая засада была когда в таблицы конвертнули реальные объемы. Поэтому пришлось писать свой компонент. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.10.2006, 16:28 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
Спасибо за ответы. 2 one706 А если такие ФИО уже есть, а это однофамилец? Тем более, если в базе есть такая Ф, но нет И. И если нет ИНН? Компонент, выбирающий за секунду из 111 тыс. по каждой букве - это серьезно. Кеш, какие-то предзапросы? Nobody faults but mine... (LZ) ... |
|||
:
Нравится:
Не нравится:
|
|||
17.10.2006, 17:31 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
aagА если такие ФИО уже есть, а это однофамилец? Полные тезки с одинаковой датой рождения приемлимо редки. Куда менее приятны дамы, меняющие фамилию и номер документа. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.10.2006, 21:02 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
aag А если такие ФИО уже есть, а это однофамилец? .. И если нет ИНН? Решение зависит от поставленных задач. В нашем случае, если не предоставлены доп. сведения (ИНН или дата р.) - принимается решение, что это тот же клиент, что есть в базе :-( (оператором, данные вносятся из журналов, т.е. у реального чела ничего не уточниш). Были попытки доп. вносить серию, номер паспорта, но после присвоения ИНН это дело так и не получило развития. Вообщем заказчика устраивает такая ситуация. Предприятие коммунальное (т.е. за клиентами не гонится), поэтому особо не заморачивается. Вообщем выходит, что если данные полные - клиент всегда идентифицируется правильно, если неполные - то как развести двух Ивановых Иван Ивановичей не имея других сведений? Может это один, может два. Оператор заочно точно никак не сможет определить. Или у кого есть соображение на этот счет? aag Тем более, если в базе есть такая Ф, но нет И. Не понял. Если нет имени, оно тут же по выходу из поля ввода имени вносится, как новое в таблицу имен (с подтверждением оператора естессно) и используется для формирования ФИО. aag Компонент, выбирающий за секунду из 111 тыс. по каждой букве - это серьезно. Кеш, какие-то предзапросы? Чесно скажу, в подробности не вникал. Ставлю задачи, а решают их другие. Но не кэш, эт точно. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.10.2006, 10:05 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
для ясности ситуации ... |
|||
:
Нравится:
Не нравится:
|
|||
18.10.2006, 10:21 |
|
проверка уникальности физлиц
|
|||
---|---|---|---|
#18+
Скажем так у нас предприятие коммерческое и за клиентами гонится. И так есть фронтовая часть, где оператор забивает анкету клиента (оператор материально заинтересован в привлечении клиента). В частности обязательно вводятся Фамилия, Имя, Дата рождения и номер паспорта причем для этих полей используется двойной а иногда и тройной ввод для избежания ошибок. Если менялся паспорт то вносится и его номер, если менялись ФИО то вносятся и они. После ввода во фронтовой части происходит проверка на действительно паспорта. Если паспорт не действителен клиент "посылается" если действителен то данные осылаются в бэк-офис. В бэк-офисе происходит поиск этого клиента в центральной базе по так называем жестким и мягким условиям. Условия менятся могут. Скажем жесткие условия это совпадение ФИО + дата рождения + № паспорта. Если клиент найден по этим условиям то однозначно мы его определили. Мягкие условия могут быть такие: ФИО+дата рождения ИЛИ № паспорта ИЛИ Старая ФИО + дата рождения ИЛИ Старый № паспорта. В таком случае выводится список найденных клиентов (+ доп. поля вроде адресов) и оператор принимает решение об идентификации клиента, оператор отвественнен за идентификацию. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.06.2007, 10:59 |
|
|
start [/forum/topic.php?fid=33&msg=34059808&tid=1549010]: |
0ms |
get settings: |
10ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
130ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
64ms |
get tp. blocked users: |
1ms |
others: | 254ms |
total: | 493ms |
0 / 0 |