как определить схожесть строк? / Java

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Java [игнор отключен] [закрыт для гостей] / как определить схожесть строк?

9 сообщений из 9, страница 1 из 1

как определить схожесть строк?

#38841081

tramadol

Участник

Сообщения: 35

Рейтинг: 0 / 0

нужно получать с API нескольких букмекерских кантор коэффициенты по ставкам на футбольные события и записывать их в базу.
в связи с тем что API у каждой кантор возвращает несколько разные названия событий, то нужно их как то распознать и свести так сказать к единому знаменателю, чтобы коэффициенты по одному событию с разных кантор попадали в одну и ту же строку в таблице.

примеры названий событий с разных кантор:

бк1: Chelsea v West Ham
бк2: Chelsea West Ham United
бк3: Chelsea vs West Ham

бк1: West Brom v Man City
бк2: W.B.A Manchester City
бк3: West Brom vs Man City

...

Рейтинг:

0 / 0

23.12.2014, 20:38

| Ответить | Цитировать | Написать

как определить схожесть строк?

#38841194

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Поскольку каждая футбольная команда имеет несколько вариантов записи
то надо их как-то привести к каноническому названию в единой (данной)
разрабатываемой системе.

Например:

Код: java

1.
2.
3.
4.
5.
6.

West Ham => "WHU"
West Ham United => "WHU"
Chelsea => "CHE"
West Brom => "WBA"
W.B.A =>"WBA"
Man City => "MCT"

Какой аппарат здесь использовать (регулярки, строковые замены, генераторы парсеров) - неважно.
Важно что правила таки придётся записать "вручную".

Ключевое слово VS/V/Versus после выполнения данного преобразования уже не имеет значения.
Если строка содержит "WHU vs WBA" то и так очевидно что есть полная информация о ставке.

...

Рейтинг:

0 / 0

24.12.2014, 04:11

| Ответить | Цитировать | Написать

как определить схожесть строк?

#38841278

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

tramadol,

http://en.wikipedia.org/wiki/Levenshtein_distance

...

Рейтинг:

0 / 0

24.12.2014, 09:32

| Ответить | Цитировать | Написать

как определить схожесть строк?

#38841342

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Blazkowicztramadol,

http://en.wikipedia.org/wiki/Levenshtein_distance
+1

Но добавлю что для W.B.A и West Brom расстояние Левешнтейна
будет слишком велико чтобы считать их похожими. Лучше
здесь сделать исключение и позаменять аббревиатуры на
развёрнутый текст.

...

Рейтинг:

0 / 0

24.12.2014, 10:24

| Ответить | Цитировать | Написать

как определить схожесть строк?

#38841365

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

mayton,

Ну, понятно, что чистый алгоритм тут не подходит. Но как помощь в данном случае самое то. Надо выделить правила вычисления, реализовать их. А Левенштейн поможет с опечатками и другими мелочами.

...

Рейтинг:

0 / 0

24.12.2014, 10:37

| Ответить | Цитировать | Написать

как определить схожесть строк?

#38841392

Atum1

Участник

Откуда: СПБ

Сообщения: 1 847

Рейтинг: 0 / 0

tramadol,

свой словарь для каждой конторы (хардкод всех названий ) + проверка на то изменила ли контора название .

...

Рейтинг:

0 / 0

24.12.2014, 10:52

| Ответить | Цитировать | Написать

как определить схожесть строк?

#38841592

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Atum1, похоже в данной задаче мы имеем дело с "грязными" данными типа заявок на ставку.
А в них может вообще не быть ключей и справочников.

...

Рейтинг:

0 / 0

24.12.2014, 12:51

| Ответить | Цитировать | Написать

как определить схожесть строк?

#38841772

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

А если будут сокращения вида WBU <--> WBW
Как какой нибудь Левенштейн поможет поборотся с опечатками? Это опечатка или нет?

Лучше уж система откажется не способной сделать совмещение, чем из-за продвинутого алгоритма "опечаток" примет не верные ставки. Кто возмещать ущерб будет, когда клиент откажется ставку оплачивать (или бабло потребует), а окажется, что опечатка такой не является?

IMHO & AFAIK

...

Рейтинг:

0 / 0

24.12.2014, 15:23

| Ответить | Цитировать | Написать

как определить схожесть строк?

#38841777

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Я думаю что данную задачу лучше решать в оперативном режиме.
Добавляя в свой справочник замен новые цепочки. Дамерау-Левенштейн
это конешно общее и концептуальное решение но с аббревиатурами
действительно выйдет пролёт.

...

Рейтинг:

0 / 0

24.12.2014, 15:26

| Ответить | Цитировать | Написать

9 сообщений из 9, страница 1 из 1

Форумы / Java [игнор отключен] [закрыт для гостей] / как определить схожесть строк?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=59&fpage=146&tid=2126026]:	0ms
get settings:	8ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	40ms
get topic data:	9ms
get forum data:	2ms
get page messages:	42ms
get tp. blocked users:	1ms
others:	239ms

total:	361ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы