Алогоритмы поиска для "похожести" строк / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Алогоритмы поиска для "похожести" строк

8 сообщений из 8, страница 1 из 1

Алогоритмы поиска для "похожести" строк

#38304670

Гость

Наверняка есть что-то готовое, или я не прав ?

Задачка след.: есть 2 программы ТВ передач из разных источников. Нужно их "склеить" по названию передач ( по границам времени не получится - они немного разные ). Названия "примерно" одинаковые ( но не полностью ). Например могут встречаться такие строки:

Женский доктор 2 история чет
Премьера. "Женский доктор 2". Многосерийный фильм. 4-я серия

"Форс-мажоры". Новый сезон
Форсмажоры 2 сезон 10 серия

"склиевать" строки нужно в ограниченном объеме ( т е в объеме максимум 10 записей за раз ).
могут встречаться и орфографические ошибки.
и тп ...

...

Рейтинг:

0 / 0

20.06.2013, 13:10:26

| Ответить | Цитировать | Написать

Алогоритмы поиска для "похожести" строк

#38304695

Akina

Участник

Откуда: Зеленоград, Москва, Россия

Сообщения: 20 644

Рейтинг: 0 / 0

Поиск общих подстрок.
На случай опечаток определять "общесть" не сравнением, а по расстоянию Дамерау — Левенштейна.

...

Рейтинг:

0 / 0

20.06.2013, 13:23:17

| Ответить | Цитировать | Написать

Алогоритмы поиска для "похожести" строк

#38304907

AlexandrPlus

Участник

Сообщения: 7 960

Рейтинг: 0 / 0

разбить (распарсить) все строки на слова
коллекция из распарсенных на слова предложений (что были строки в ТВ-программе на сутки)
искать в цикле - сперва все пары-тройки где одинаковы последовательности из 10 подряд - убрать из коллекции
одинаковы последовательности из 9 слов подряд - убрать
из 8
проверять не пуста ли уже коллекция

из 1
остались еще - просмотр непосредственно и анализ (или там словарь привлечь - разбить на слова из словаря или ...)

...

Рейтинг:

0 / 0

20.06.2013, 14:52:20

| Ответить | Цитировать | Написать

Алогоритмы поиска для "похожести" строк

#38305728

rdbmsa

Участник

Откуда: Екатеринбург

Сообщения: 16

Рейтинг: 0 / 0

разбить на слова и левенштейном например. Куча статей в интернете как.. даже на русском есть. Реализация левенштейна тоже много где уже есть - может даже и разбираться в нем не придется.

...

Рейтинг:

0 / 0

21.06.2013, 09:44:41

| Ответить | Цитировать | Написать

Алогоритмы поиска для "похожести" строк

#38305808

Akina

Участник

Откуда: Зеленоград, Москва, Россия

Сообщения: 20 644

Рейтинг: 0 / 0

Разбиение на слова - не очень верный подход... "Хрен дубовый - не дуб хреновый"... тут как раз на подстроки задача, чем длиннее общая подстрока, тем больше соответствия.

...

Рейтинг:

0 / 0

21.06.2013, 10:21:25

| Ответить | Цитировать | Написать

Алогоритмы поиска для "похожести" строк

#38306191

softwarer

Участник

Откуда: 127.0.0.1

Сообщения: 51 965

Рейтинг: 0 / 0

AkinaРазбиение на слова - не очень верный подход...
Не соглашусь. Критически верный.

Akina "Хрен дубовый - не дуб хреновый"...
Для телепрограммы, думаю, это соображение как минимум спорно. Скажем, "М/ф Варежка" и "Варежка (м/ф)" - это одно и то же. Но более важно другое: после сопоставления по словам никто не мешает уточнить порядок, зато само по себе оно даст гораздо лучшие результаты. Грубо говоря, если в строке присутствуют дуб* и хрен*, то вероятность иметь в течение одного дня "дуб хреновый" и "хрен дубовый" довольно мала и может быть обработана, а вот сопоставление, когда они замешаны в куче мусорного оформления будет очень надёжным.

...

Рейтинг:

0 / 0

21.06.2013, 13:43:20

| Ответить | Цитировать | Написать

Алогоритмы поиска для "похожести" строк

#38306264

Akina

Участник

Откуда: Зеленоград, Москва, Россия

Сообщения: 20 644

Рейтинг: 0 / 0

Ну может вы и правы...

...

Рейтинг:

0 / 0

21.06.2013, 14:14:25

| Ответить | Цитировать | Написать

Алогоритмы поиска для "похожести" строк

#38321569

nexoma

Участник

Сообщения: 205

Рейтинг: 0 / 0

http://search.cpan.org/~jhi/String-Approx-3.27/Approx.pm - String::Approx - Perl extension for approximate matching (fuzzy matching)

http://search.cpan.org/~tareka/String-Trigram-0.11/Trigram.pm - String::Trigram - Find similar strings by trigram (or 1, 2, 4, etc.-gram) method

...

Рейтинг:

0 / 0

05.07.2013, 11:13:31

| Ответить | Цитировать | Написать

8 сообщений из 8, страница 1 из 1

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Алогоритмы поиска для "похожести" строк

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&msg=38305728&tid=1341749]:	0ms
get settings:	8ms
get forum list:	20ms
check forum access:	3ms
check topic access:	3ms
track hit:	55ms
get topic data:	11ms
get forum data:	2ms
get page messages:	59ms
get tp. blocked users:	1ms
others:	196ms

total:	358ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы