Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Можно ли сделать хеш для стравнения текстов / 3 сообщений из 3, страница 1 из 1
28.07.2015, 23:27
    #39018139
didgik
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Можно ли сделать хеш для стравнения текстов
Есть у меня задача сделать сравнение текстов типа для поиска плагиата, повторов и т.п.
И возникла у меня мысль, а нет ли специального хеша для текста типа чем более похожи текста, тем ближе похож хеш?
...
Рейтинг: 0 / 0
29.07.2015, 08:01
    #39018212
Roman Mejtes
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Можно ли сделать хеш для стравнения текстов
didgikЕсть у меня задача сделать сравнение текстов типа для поиска плагиата, повторов и т.п.
И возникла у меня мысль, а нет ли специального хеша для текста типа чем более похожи текста, тем ближе похож хеш?
хеширую не сам текст, а разбивают его на фрагменты. Например на предложения, затем хешируют и сравнивают. Если найдено много совпадений, то далается более углубленный поиск\анализ текста
...
Рейтинг: 0 / 0
29.07.2015, 19:24
    #39019048
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Можно ли сделать хеш для стравнения текстов
Буквально недавно я прикрутил к одному Java проекту PMD-плагин для поиска копи-пасты в коде.
Проект велик. И копи-пасты дохренища. Особенно в части GWT-интерфейсов где код клепался клонированием
чего-то уже работающего.

Как он работает внутри (внутре) я не знаю. Но есть несколько ключевых слов (выделил цветом) по алгоритму которые
возможно натолкнут автора на мысли.

Finding duplicate codeDuplicate code can be hard to find, especially in a large project. But PMD's Copy/Paste Detector (CPD) can find it for you! CPD has been through three major incarnations:

First we wrote it using a variant of Michael Wise's Greedy String Tiling algorithm (our variant is described here)
Then it was completely rewritten by Brian Ewins using the Burrows-Wheeler transform
Finally, it was rewritten by Steve Hawkins to use the Karp-Rabin string matching algorithm.

Со ссылкой на http://pmd.sourceforge.net/pmd-4.3.0/cpd.html
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Можно ли сделать хеш для стравнения текстов / 3 сообщений из 3, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]