powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / антиплагиат
10 сообщений из 10, страница 1 из 1
антиплагиат
    #36588264
тверской
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
кто-нибудь сталкивался с созданием/проектированием БД для задачи "антиплагиат" в университете/школе?
...
Рейтинг: 0 / 0
антиплагиат
    #36588324
тверской
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
задача, насколько понимаю, разбивается на три подзадачи:
1) преобразование исходных документов в единый (простой) формат, удобный для хранения в БД
основная задача - отображение "исходного" документа при выводе результата
2) обработка текстов исходных документов (перевод текста в сигнатуры), индексация
3) алгоритмы поиска пересечений множеств сигнатур (алгоритмы учитывают взаимное расположение слов/фраз, точность совпадений и т.д.), рассчет степени совпадений
...
Рейтинг: 0 / 0
антиплагиат
    #36589602
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
тверской, кто-то да сталкивался - в прессе даже сообщения о внедрённх решениях пробелагли
...
Рейтинг: 0 / 0
антиплагиат
    #36591445
Tosh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В принципе - все сводится к поиску устойчиво схожих наборов слов с определенной долей погрешности.
Если выбрать единицей измерения предложение - достаточно разбить новый текст на предложение и выбрать из поискового индекса схожие с определенной степенью точности элементы (тут помогут различные алгоритмы сравнения текста ... что-то вроде Diff или как-то так). Если процент найденных элементов превышает определенный порог - это плагиат.
В дополнение можно попробовать указать список источников.
К стати - поисковый индекс - это уникальные предложения (единицы поиска) - вдруг эталоны плагиатят друг у друга

В общем где-то так ... только работает это не очень быстро - я что-то подобное делал, но в упращенном варианте
...
Рейтинг: 0 / 0
антиплагиат
    #36597404
тверской
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Tosh,
насколько упрощенном?
...
Рейтинг: 0 / 0
антиплагиат
    #36597614
Tosh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
тверской, без анализа ... фактически - просто тупой поисковик с единицей измерения в слово
...
Рейтинг: 0 / 0
антиплагиат
    #36943431
тверской
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
анализ ошибок/опечаток в словах как реализовывали?
чтобы сравнить синонимы и близкие слова (блоки текста с близкими словами) - сталкивались?

например, новый <-> не старый, красный <-> пурпурный

сравнение текстовых документов на "близость"
какие существуют метрики - кроме совпрадения слов, порядка слов, близости слов
...
Рейтинг: 0 / 0
антиплагиат
    #36947234
Фотография Cheerful Calf
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
сравнить с одним шаблоном - можно, а вто найти среди >>10000 работ n количество похожих k работ - сложно.
...
Рейтинг: 0 / 0
антиплагиат
    #36947250
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Cheerful Calfсравнить с одним шаблоном - можно, а вто найти среди >>10000 работ n количество похожих k работ - сложно.Смените ник на Капитан Очевидность.
...
Рейтинг: 0 / 0
антиплагиат
    #36958661
Cane Cat Fisher
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Любопытно, но когда я пробежал глазами заголовок, то мне померещилась противоположная постановка задачи - обработать кусок текста, чтобы потом робот не смог связать его с исходником. Например, немного слова попереставлять, синонимами позаменять, добавить всякой водички вроде "можно с определенностью утверждать..." и так далее.

И что интересно, эта задача на порядок проще, чем собственно анализатор. Видимо, в будущем эти две технологии будут развиваться параллельно, как вирусы и антивирусы, или как спамеры-спамфильтры. Кроме студентов, она будет востребована любителями оживлять свои сайты чужими новостями, статьями и т.д.

Жалко только людей, которым придется читать эту полуавтоматическую полугалиматью.
...
Рейтинг: 0 / 0
10 сообщений из 10, страница 1 из 1
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / антиплагиат
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]