|
|
|
Можно ли сделать хеш для стравнения текстов
|
|||
|---|---|---|---|
|
#18+
Есть у меня задача сделать сравнение текстов типа для поиска плагиата, повторов и т.п. И возникла у меня мысль, а нет ли специального хеша для текста типа чем более похожи текста, тем ближе похож хеш? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.07.2015, 23:27 |
|
||
|
Можно ли сделать хеш для стравнения текстов
|
|||
|---|---|---|---|
|
#18+
didgikЕсть у меня задача сделать сравнение текстов типа для поиска плагиата, повторов и т.п. И возникла у меня мысль, а нет ли специального хеша для текста типа чем более похожи текста, тем ближе похож хеш? хеширую не сам текст, а разбивают его на фрагменты. Например на предложения, затем хешируют и сравнивают. Если найдено много совпадений, то далается более углубленный поиск\анализ текста ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.07.2015, 08:01 |
|
||
|
Можно ли сделать хеш для стравнения текстов
|
|||
|---|---|---|---|
|
#18+
Буквально недавно я прикрутил к одному Java проекту PMD-плагин для поиска копи-пасты в коде. Проект велик. И копи-пасты дохренища. Особенно в части GWT-интерфейсов где код клепался клонированием чего-то уже работающего. Как он работает внутри (внутре) я не знаю. Но есть несколько ключевых слов (выделил цветом) по алгоритму которые возможно натолкнут автора на мысли. Finding duplicate codeDuplicate code can be hard to find, especially in a large project. But PMD's Copy/Paste Detector (CPD) can find it for you! CPD has been through three major incarnations: First we wrote it using a variant of Michael Wise's Greedy String Tiling algorithm (our variant is described here) Then it was completely rewritten by Brian Ewins using the Burrows-Wheeler transform Finally, it was rewritten by Steve Hawkins to use the Karp-Rabin string matching algorithm. Со ссылкой на http://pmd.sourceforge.net/pmd-4.3.0/cpd.html ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.07.2015, 19:24 |
|
||
|
|

start [/forum/topic.php?fid=16&gotonew=1&tid=1340964]: |
0ms |
get settings: |
7ms |
get forum list: |
12ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
160ms |
get topic data: |
7ms |
get first new msg: |
4ms |
get forum data: |
2ms |
get page messages: |
39ms |
get tp. blocked users: |
1ms |
| others: | 221ms |
| total: | 457ms |

| 0 / 0 |
