антиплагиат / Проектирование БД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / антиплагиат

10 сообщений из 10, страница 1 из 1

антиплагиат

#36588264

тверской

Гость

кто-нибудь сталкивался с созданием/проектированием БД для задачи "антиплагиат" в университете/школе?

...

Рейтинг:

0 / 0

20.04.2010, 17:09

| Ответить | Цитировать | Написать

антиплагиат

#36588324

тверской

Гость

задача, насколько понимаю, разбивается на три подзадачи:
1) преобразование исходных документов в единый (простой) формат, удобный для хранения в БД
основная задача - отображение "исходного" документа при выводе результата
2) обработка текстов исходных документов (перевод текста в сигнатуры), индексация
3) алгоритмы поиска пересечений множеств сигнатур (алгоритмы учитывают взаимное расположение слов/фраз, точность совпадений и т.д.), рассчет степени совпадений

...

Рейтинг:

0 / 0

20.04.2010, 17:27

| Ответить | Цитировать | Написать

антиплагиат

#36589602

АнатоЛой

Участник

Откуда: Киев, Украина

Сообщения: 2 910

Рейтинг: 0 / 0

тверской, кто-то да сталкивался - в прессе даже сообщения о внедрённх решениях пробелагли

...

Рейтинг:

0 / 0

21.04.2010, 11:32

| Ответить | Цитировать | Написать

антиплагиат

#36591445

Tosh

Участник

Откуда: Vladivostok

Сообщения: 2 870

Рейтинг: 0 / 0

В принципе - все сводится к поиску устойчиво схожих наборов слов с определенной долей погрешности.
Если выбрать единицей измерения предложение - достаточно разбить новый текст на предложение и выбрать из поискового индекса схожие с определенной степенью точности элементы (тут помогут различные алгоритмы сравнения текста ... что-то вроде Diff или как-то так). Если процент найденных элементов превышает определенный порог - это плагиат.
В дополнение можно попробовать указать список источников.
К стати - поисковый индекс - это уникальные предложения (единицы поиска) - вдруг эталоны плагиатят друг у друга

В общем где-то так ... только работает это не очень быстро - я что-то подобное делал, но в упращенном варианте

...

Рейтинг:

0 / 0

22.04.2010, 05:33

| Ответить | Цитировать | Написать

антиплагиат

#36597404

тверской

Гость

Tosh,
насколько упрощенном?

...

Рейтинг:

0 / 0

25.04.2010, 22:48

| Ответить | Цитировать | Написать

антиплагиат

#36597614

Tosh

Участник

Откуда: Vladivostok

Сообщения: 2 870

Рейтинг: 0 / 0

тверской, без анализа ... фактически - просто тупой поисковик с единицей измерения в слово

...

Рейтинг:

0 / 0

26.04.2010, 06:21

| Ответить | Цитировать | Написать

антиплагиат

#36943431

тверской

Гость

анализ ошибок/опечаток в словах как реализовывали?
чтобы сравнить синонимы и близкие слова (блоки текста с близкими словами) - сталкивались?

например, новый <-> не старый, красный <-> пурпурный

сравнение текстовых документов на "близость"
какие существуют метрики - кроме совпрадения слов, порядка слов, близости слов

...

Рейтинг:

0 / 0

08.11.2010, 19:52

| Ответить | Цитировать | Написать

антиплагиат

#36947234

Cheerful Calf

Участник

Откуда: Lithuania

Сообщения: 7 655

Рейтинг: 0 / 0

сравнить с одним шаблоном - можно, а вто найти среди >>10000 работ n количество похожих k работ - сложно.

...

Рейтинг:

0 / 0

10.11.2010, 13:51

| Ответить | Цитировать | Написать

антиплагиат

#36947250

Senya_L

Участник

Откуда: Москва

Сообщения: 5 471

Рейтинг: 0 / 0

Cheerful Calfсравнить с одним шаблоном - можно, а вто найти среди >>10000 работ n количество похожих k работ - сложно.Смените ник на Капитан Очевидность.

...

Рейтинг:

0 / 0

10.11.2010, 13:56

| Ответить | Цитировать | Написать

антиплагиат

#36958661

Cane Cat Fisher

Участник

Сообщения: 1 640

Рейтинг: 0 / 0

Любопытно, но когда я пробежал глазами заголовок, то мне померещилась противоположная постановка задачи - обработать кусок текста, чтобы потом робот не смог связать его с исходником. Например, немного слова попереставлять, синонимами позаменять, добавить всякой водички вроде "можно с определенностью утверждать..." и так далее.

И что интересно, эта задача на порядок проще, чем собственно анализатор. Видимо, в будущем эти две технологии будут развиваться параллельно, как вирусы и антивирусы, или как спамеры-спамфильтры. Кроме студентов, она будет востребована любителями оживлять свои сайты чужими новостями, статьями и т.д.

Жалко только людей, которым придется читать эту полуавтоматическую полугалиматью.

...

Рейтинг:

0 / 0

16.11.2010, 09:17

| Ответить | Цитировать | Написать

10 сообщений из 10, страница 1 из 1

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / антиплагиат

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=32&msg=36947234&tid=1542446]:	0ms
get settings:	9ms
get forum list:	16ms
check forum access:	4ms
check topic access:	4ms
track hit:	183ms
get topic data:	13ms
get forum data:	4ms
get page messages:	63ms
get tp. blocked users:	1ms
others:	232ms

total:	529ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы