|
|
|
антиплагиат
|
|||
|---|---|---|---|
|
#18+
кто-нибудь сталкивался с созданием/проектированием БД для задачи "антиплагиат" в университете/школе? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.04.2010, 17:09 |
|
||
|
антиплагиат
|
|||
|---|---|---|---|
|
#18+
задача, насколько понимаю, разбивается на три подзадачи: 1) преобразование исходных документов в единый (простой) формат, удобный для хранения в БД основная задача - отображение "исходного" документа при выводе результата 2) обработка текстов исходных документов (перевод текста в сигнатуры), индексация 3) алгоритмы поиска пересечений множеств сигнатур (алгоритмы учитывают взаимное расположение слов/фраз, точность совпадений и т.д.), рассчет степени совпадений ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.04.2010, 17:27 |
|
||
|
антиплагиат
|
|||
|---|---|---|---|
|
#18+
тверской, кто-то да сталкивался - в прессе даже сообщения о внедрённх решениях пробелагли ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.04.2010, 11:32 |
|
||
|
антиплагиат
|
|||
|---|---|---|---|
|
#18+
В принципе - все сводится к поиску устойчиво схожих наборов слов с определенной долей погрешности. Если выбрать единицей измерения предложение - достаточно разбить новый текст на предложение и выбрать из поискового индекса схожие с определенной степенью точности элементы (тут помогут различные алгоритмы сравнения текста ... что-то вроде Diff или как-то так). Если процент найденных элементов превышает определенный порог - это плагиат. В дополнение можно попробовать указать список источников. К стати - поисковый индекс - это уникальные предложения (единицы поиска) - вдруг эталоны плагиатят друг у друга В общем где-то так ... только работает это не очень быстро - я что-то подобное делал, но в упращенном варианте ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.04.2010, 05:33 |
|
||
|
антиплагиат
|
|||
|---|---|---|---|
|
#18+
Tosh, насколько упрощенном? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2010, 22:48 |
|
||
|
антиплагиат
|
|||
|---|---|---|---|
|
#18+
тверской, без анализа ... фактически - просто тупой поисковик с единицей измерения в слово ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.04.2010, 06:21 |
|
||
|
антиплагиат
|
|||
|---|---|---|---|
|
#18+
анализ ошибок/опечаток в словах как реализовывали? чтобы сравнить синонимы и близкие слова (блоки текста с близкими словами) - сталкивались? например, новый <-> не старый, красный <-> пурпурный сравнение текстовых документов на "близость" какие существуют метрики - кроме совпрадения слов, порядка слов, близости слов ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.11.2010, 19:52 |
|
||
|
антиплагиат
|
|||
|---|---|---|---|
|
#18+
сравнить с одним шаблоном - можно, а вто найти среди >>10000 работ n количество похожих k работ - сложно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.11.2010, 13:51 |
|
||
|
антиплагиат
|
|||
|---|---|---|---|
|
#18+
Cheerful Calfсравнить с одним шаблоном - можно, а вто найти среди >>10000 работ n количество похожих k работ - сложно.Смените ник на Капитан Очевидность. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.11.2010, 13:56 |
|
||
|
антиплагиат
|
|||
|---|---|---|---|
|
#18+
Любопытно, но когда я пробежал глазами заголовок, то мне померещилась противоположная постановка задачи - обработать кусок текста, чтобы потом робот не смог связать его с исходником. Например, немного слова попереставлять, синонимами позаменять, добавить всякой водички вроде "можно с определенностью утверждать..." и так далее. И что интересно, эта задача на порядок проще, чем собственно анализатор. Видимо, в будущем эти две технологии будут развиваться параллельно, как вирусы и антивирусы, или как спамеры-спамфильтры. Кроме студентов, она будет востребована любителями оживлять свои сайты чужими новостями, статьями и т.д. Жалко только людей, которым придется читать эту полуавтоматическую полугалиматью. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2010, 09:17 |
|
||
|
|

start [/forum/topic.php?fid=32&msg=36947234&tid=1542446]: |
0ms |
get settings: |
9ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
183ms |
get topic data: |
13ms |
get forum data: |
4ms |
get page messages: |
63ms |
get tp. blocked users: |
1ms |
| others: | 232ms |
| total: | 529ms |

| 0 / 0 |
