Похожесть слов по написанию / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Похожесть слов по написанию

8 сообщений из 8, страница 1 из 1

Похожесть слов по написанию

#39224257

Conejo

Гость

Есть некий справочник слов. Периодически скачиваются слова, которых в справочнике нет.
Поскольку справочник достаточно полный, есть основания предполагать, что загруженные слова в базе уже есть, а новые - это ошибочно написанные старые (ну, или наоборот). Чтобы не плодить дубли и особенно ошибки в справочнике, на обработке сидит человек, который просматривает новые слова и решает - новое оно или уже есть в справочнике, и какой из вариантов написания правильный.
Цель - упростить работу оператору и предлагать наиболее похожие слова из уже имеющихся в справочнике. Другими словами, на любое слово показывать топ-10 наиболее похожих из списка.
Поделитесь пож. идеями, как это можно реализовать или где про такое можно почитать.

...

Рейтинг:

0 / 0

25.04.2016, 22:43:50

| Ответить | Цитировать | Написать

Похожесть слов по написанию

#39224261

Akina

Участник

Откуда: Зеленоград, Москва, Россия

Сообщения: 20 644

Рейтинг: 0 / 0

Читать "расстояние Левенштейна".

...

Рейтинг:

0 / 0

25.04.2016, 22:47:44

| Ответить | Цитировать | Написать

Похожесть слов по написанию

#39224287

__Avenger__

Участник

Сообщения: 2 026

Рейтинг: 0 / 0

Мне больше нравится алгоритм Ratcliff/Obershelp pattern matching

...

Рейтинг:

0 / 0

26.04.2016, 00:02:18

| Ответить | Цитировать | Написать

Похожесть слов по написанию

#39224322

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Тут большая подборка алгоритмов https://habrahabr.ru/post/114997/

...

Рейтинг:

0 / 0

26.04.2016, 05:44:07

| Ответить | Цитировать | Написать

Похожесть слов по написанию

#39224634

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Conejo, я полностью согласен с предложением по функции Левинштена.

Но добавлю наблюдения из практики. В двух ентерпрайзовых системах
которые трогал руками использовался нечеткий поиск на основе
Soundex и DoubleMetaphone. Их имплементации есть в Postgressql
в стандартных пакетах. Надо только доустановить.

Я также нагугливал легко их Java-имплементации в apache.commons.*
и еще где-то.

Обе функции хорошо идут для поиска в справочниках имен физлиц.
Они в первую очередь ориентированы на фонетику. Тоесть на созвучные
и похожие имена такие как Иван, Иоан, Ион e.t.c. Я не уверен что они
тебе помогут. Но попробуй.

Обычно резалт этой функции похож на хешкод и его кладут рядом с ФИО
и строят индекс по этому полю.

Чуть позже если интересно я отпишу 3-й вариант поиска на движке SQLite/.

...

Рейтинг:

0 / 0

26.04.2016, 12:14:54

| Ответить | Цитировать | Написать

Похожесть слов по написанию

#39225009

Conejo

Гость

Большое спасибо всем! Функция Левенштейна вполне подошла для моей задачи

...

Рейтинг:

0 / 0

26.04.2016, 17:50:05

| Ответить | Цитировать | Написать

Похожесть слов по написанию

#39225573

fortress

Участник

Сообщения: 83

Рейтинг: 0 / 0

там же, в пакете fuzzystrmatch для postgresql, есть вариант функции
levenshtein(text,text) которая возвращает количество отличающихся
символов в 2 переданных аргументах.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

27.04.2016, 13:31:23

| Ответить | Цитировать | Написать

Похожесть слов по написанию

#39226026

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

На App уровне

Левенштейн
https://commons.apache.org/sandbox/commons-text/jacoco/org.apache.commons.text.similarity/LevenshteinDistance.java.html

Soundex
https://commons.apache.org/proper/commons-codec/apidocs/org/apache/commons/codec/language/Soundex.html

Double Metaphone
https://commons.apache.org/proper/commons-codec/apidocs/org/apache/commons/codec/language/DoubleMetaphone.html

...

Рейтинг:

0 / 0

27.04.2016, 18:16:26

| Ответить | Цитировать | Написать

8 сообщений из 8, страница 1 из 1

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Похожесть слов по написанию

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&gotonew=1&tid=1340734]:	0ms
get settings:	8ms
get forum list:	15ms
check forum access:	3ms
check topic access:	3ms
track hit:	60ms
get topic data:	8ms
get first new msg:	5ms
get forum data:	2ms
get page messages:	36ms
get tp. blocked users:	1ms
others:	224ms

total:	365ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы