Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Автокоррекция правописания по словарю / 7 сообщений из 7, страница 1 из 1
02.06.2010, 16:40
    #36664557
Eg0r
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Автокоррекция правописания по словарю
Есть следующая задача.
Имеется база большого объема (порядка миллиона записей), представляющая собой словарь (например, список всех возможных фамилий или список всех возможных улиц всех городов России).

Необходимо проверить введенное значение на наличие в словаре, и при отсутствии в словаре предложить наиболее близкое по написанию слово из словаря.
ПРИЧЕМ ПРИ ЭТОМ ДОЛЖНА ДОСТИГАТЬСЯ МАКСИМАЛЬНАЯ ПРОИЗВОДИТЕЛЬНОСТЬ!

Первое, что приходит на ум - если по точному совпадению на нашли, делаем перебор по всему словарю, для каждого имеющегося в словаре значения считаем отличие от введенного значения (например, используя алгоритм Левенштейна), и в качестве альтернативы предлагаем те слова из словаря, у которых отличие от введенного значения минимальное.

Сомнения вызывает производительность такого подхода при большом объеме словаря - миллион раз вызывать функцию определения отличия (Левенштейна) слишком подгрузит систему.

Существуют ли какие-нибудь методы, позволяющие оптимизировать этот процесс (может можно создать какие-нибудь индексы по словарям, которые бы помогли оптимизировать алгоритм)?
...
Рейтинг: 0 / 0
02.06.2010, 17:29
    #36664740
nosov
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Автокоррекция правописания по словарю
авторПервое, что приходит на ум - если по точному совпадению на нашли, делаем перебор по всему словарю, для каждого имеющегося в словаре значения считаем отличие от введенного значениянаверное это самый бездарный и затратный по времени алгоритм поиска.
изучите как работают поисковые системы типа GOOGLE.
...
Рейтинг: 0 / 0
03.06.2010, 09:18
    #36665696
nosov
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Автокоррекция правописания по словарю
имхо
я догадался для чего это Вам нужно. Вы работник почтовой службы. А поскольку адреса часто пишут с ошибками вам приходится догадываться какой реальный адрес наиболее близко подходит к указанному на конверте.
Хотя формально вы можете вернуть письмо отправителю с припиской -- нет такой улицы в городе N.
...
Рейтинг: 0 / 0
03.06.2010, 11:02
    #36665930
nosov
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Автокоррекция правописания по словарю
нашел на соседнем форуме :
автор нечёткий поиск по тексту. Вводишь SELECT ... WHERE word % 'Батва' а оно выдаёт 'Ботва'. Типа гуглового "Возможно Вы имели в виду ..."это про СУБД POSTGRESQL.
...
Рейтинг: 0 / 0
03.06.2010, 11:42
    #36666066
sp
sp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Автокоррекция правописания по словарю
На RSDN.RU есть статья описывающая алгоритм проверки и сопоставления адресов
...
Рейтинг: 0 / 0
09.06.2010, 12:04
    #36677647
Eg0r
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Автокоррекция правописания по словарю
spНа RSDN.RU есть статья описывающая алгоритм проверки и сопоставления адресов

А можно ссылку?
Что-то не нахожу.
...
Рейтинг: 0 / 0
28.06.2010, 09:34
    #36710710
_хех
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Автокоррекция правописания по словарю
Eg0r,

если по улицам и городам посмотри это
...
Рейтинг: 0 / 0
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Автокоррекция правописания по словарю / 7 сообщений из 7, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]