Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Релевантность / 25 сообщений из 60, страница 1 из 3
20.02.2010, 18:47:31
    #36481500
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
Доброго времени суток други! Здравы будете!
Вот у меня вопросик возник...
Надо сделать программку, в которую можно загружать текст.
Кроме того, в этой программке необходимо осуществлять поиск выбранного слова или словосочетания в других документах, сортируя результат по релевантности. Имеется в виду, что сочетание «мама мыла раму» будет соответствовать искомой строке «мама мыла», а так же строке «мама раму», но уже с меньшим коэффициентом релевантности.

Здесь непонятно, что значит "сортировать по релевантности", "коэффициент релевантности"...

Ведь релевантность - означает соответствие результатов поиска запросу. Чем выше соответствие, тем выше релевантность. В плане контента релевантность – это соответствие описания содержанию.


Объясните пожалуйста, не дайте умереть)
...
Рейтинг: 0 / 0
20.02.2010, 22:01:54
    #36481630
Vowk
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
Ну видимо надо придумать систему "баллов", соответствующую релевантности. Наивысший балл - полное совпадение, затем придумать возможные варианты отклонений от точного совпадения и оценить их.
...
Рейтинг: 0 / 0
20.02.2010, 22:43:49
    #36481663
S.G.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
"нечеткий поиск", "полнотекстовый поиск", "контекстный поиск" - по этим фразам сделать поиск :)
...
Рейтинг: 0 / 0
21.02.2010, 10:41:26
    #36481858
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
S.G."нечеткий поиск", "полнотекстовый поиск", "контекстный поиск" - по этим фразам сделать поиск :)
точно?)
...
Рейтинг: 0 / 0
21.02.2010, 12:05:16
    #36481912
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
Я здесь понимаю так:
Воодим мы в поисковике сочетание "мама мыла". А нам выпадают результаты "мама мыла раму", "мама раму"
Так что-ли?
...
Рейтинг: 0 / 0
21.02.2010, 14:52:49
    #36482053
an0nym
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
gnotЯ здесь понимаю так:
Воодим мы в поисковике сочетание "мама мыла". А нам выпадают результаты "мама мыла раму", "мама раму"
Так что-ли?
По самому простому алгоритму: "мама мыла раму" релевантность 1, "мама раму" релевантность 0.5.
...
Рейтинг: 0 / 0
21.02.2010, 16:38:19
    #36482122
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
an0nymgnotЯ здесь понимаю так:
Воодим мы в поисковике сочетание "мама мыла". А нам выпадают результаты "мама мыла раму", "мама раму"
Так что-ли?
По самому простому алгоритму: "мама мыла раму" релевантность 1, "мама раму" релевантность 0.5.
Вообще не понял, что же необходимо конечному пользователю... Допустим, я пользователь, открыл текст, ввожу МАМА, а мне выпадает список мама мыла раму, мама раму...
Примерно так?
И как рассчитывать словосочетания с коэффициентом релевантности ?
Как условия задавать?
Что-то вообще запутался...
...
Рейтинг: 0 / 0
21.02.2010, 16:41:25
    #36482124
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
Вообще, ЧТО какой результат должен получить конечный пользователь?
мама мыла раму, мама раму, мама мыла?
...
Рейтинг: 0 / 0
21.02.2010, 17:15:52
    #36482158
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
Или так:
Если ввожу словосочетание "мама мыла раму", то в в первую очередь выпадают часть текстов со словосочетаниями "мама мыла", так что-ли?
Ну или хоть ссылку дайте на алгоритмы поиска по релевантности...
...
Рейтинг: 0 / 0
21.02.2010, 17:21:08
    #36482162
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
gnot,

Не существует какого-то единого, стандартного или универсального способа расчета релевантности.
Этот способ вытекает из требований задачи.

В вашем случае - "поиск выбранного слова или словосочетания" понятие релевантности (почти) вырождается. Т.е. есть нужное слово - 1. Нет - 0. Максимум, что может быть посередине - другие словоформы этого же слова. Но нужно их учитывать или нет - из вашего текста неясно.
...
Рейтинг: 0 / 0
21.02.2010, 17:28:30
    #36482167
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
gnot,

кстати, почитайте тут - http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%BB%D0%B5%D0%B2%D0%B0%D0%BD%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C и далее по ссылкам.
...
Рейтинг: 0 / 0
21.02.2010, 18:15:27
    #36482224
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
miksoftgnot,

Не существует какого-то единого, стандартного или универсального способа расчета релевантности.
Этот способ вытекает из требований задачи.

В вашем случае - "поиск выбранного слова или словосочетания" понятие релевантности (почти) вырождается. Т.е. есть нужное слово - 1. Нет - 0. Максимум, что может быть посередине - другие словоформы этого же слова. Но нужно их учитывать или нет - из вашего текста неясно.
То есть так:
Мама мыла - есть нужное слово?
мама раму -нет нужного слова?
...
Рейтинг: 0 / 0
21.02.2010, 18:21:40
    #36482233
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
gnotТо есть так:
Мама мыла - есть нужное слово?
мама раму -нет нужного слова?Откуда ж я могу знать как вам надо? Спрашивайте того, кто вам задачу ставил.
...
Рейтинг: 0 / 0
21.02.2010, 18:32:00
    #36482244
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
Надо сделать программу, в которую можно загружать текст.
Кроме того, в этой программке необходимо осуществлять поиск выбранного слова или словосочетания в других документах, сортируя результат по релевантности. Имеется в виду, что сочетание «мама мыла раму» будет соответствовать искомой строке «мама мыла», а так же строке «мама раму», но уже с меньшим коэффициентом релевантности.

Вот и вся задача...
А если отойти от сложных алгоритмов, интегралов по вычислению релевантности, то как должен осуществляться поиск?
Ну например, пользователь ввел в поисковике "мама мыла раму". И ему выпадают ссылки на словосочетания, содержащие данные слова? То есть "мама", "мама мыла", "мама мыла раму","мама раму", "мыла раму"?
вводит слово "мама" - ему выпадают слово "мама".
вводит словосочетание "мама мыла" - ему выпадают "мама", "мама мыла", "мама мыла раму", "мама раму"?

И вообще, откуда я знаю, что пользователь хочет именно сочетание "мама мыла"?
Мо
...
Рейтинг: 0 / 0
21.02.2010, 20:03:13
    #36482313
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
Или можно сделать так:
Есть у нас текст, в котором слово "мама" встречается 10 раз, слово "мыла" -10 раз, слово "раму" - 4 раза.

Тогда в поисковике при вводе слова "мама мыла раму" будут выводиться словосочетания в таком порядке: "мама", "мама мыла", "мама мыла раму", "мама раму" "мыла раму"

Так можно?
...
Рейтинг: 0 / 0
22.02.2010, 14:44:31
    #36482989
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
Можно по всякому. Все алгоритмы поиска в тексте выдают результат в виде нечёткой оценки. Как сравнивать близость шаблона поиска - и документа это ты можешь сам придумать исходя из задачи. Например можно усложнить поиск введя элемент грамматики. Т.е. рама, раму, рамы.... и т.д. будет отображаться на одну сущность токена. Тогда индекс по документу должен быть очищен от падежей, склонений и т.п. Если тебе очень важно найти жёсткую фразу "мама мыла.." тогда индекс должен быть бюлее тяжёлым. Учитывать порядок токенов.
...
Рейтинг: 0 / 0
22.02.2010, 23:17:04
    #36483782
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
О! Представим себе, что словосочетания находятся в каком -либо поле в таблице БД.
Скажем, есть у нас таблица work. В ней есть поля - id(уникальный идентификатор, можно сделать в виде даты), description (описание работ). В поле description и находятся описания работы нашей мамы)
Структура примерно такая
id Description
1.01 мама мыла раму
2.01 мама мыла пол
3.01 мама мыла шкаф
4.01 мама мыла люстру
5.01 мама раму запечатывала

Как видим, словосочетание "мама мыла" встречается гораздо чаще, следовательно, оно будет более релевантным. А словосочетание "мама раму" - менее релевантно. У слова "мама" получается вообще релевантность 100% )
Так вот, как это сформировать в виде запроса SQL с учетом релевантности каждого слова? И соответственно вывести результат) Как я понял, результат должен выводиться в соотвествии с релевантностью: на первом месте - более релевантные словосочетания, на втором -менее и тд
...
Рейтинг: 0 / 0
22.02.2010, 23:37:15
    #36483814
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
gnotО! Представим себе, что словосочетания находятся в каком -либо поле в таблице БД.
Здесь - архитектурный просчёт. Поисковые системы по тексту так не проектируются. Если вы хотите обсуждать термин релевантность - это одно. А если вы фантазируете на тему, как работает TextSearch - то скорее всего ошибаетесь. Я вообще не понимаю в чём смысл такого (очевидно ненормализованного) хранения данных.
...
Рейтинг: 0 / 0
23.02.2010, 11:21:51
    #36484052
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
А из самой постановки задачи.
Вот
"Написать приложение, позволяющее заводить в программу данные, содержащие текст.
Данные должны храниться в базе данных.

Программа должна позволять просматривать документы и осуществлять поиск выбранного слова или словосочетания в других документах, сортируя результат по релевантности. Имеется в виду, что сочетание «мама мыла раму» будет соответствовать искомой строке «мама мыла», а так же строке «мама раму», но уже с меньшим коэффициентом релевантности
"
Как это понимать? Что здесь подразумевается под данными, под текстом? Как они должны быть структурированы? Ну и пр и пр...
...
Рейтинг: 0 / 0
23.02.2010, 11:31:26
    #36484063
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
для меня это что-то из области "Э! Слыыышь! Там короче... ээээ... Ну ты понял!"
...
Рейтинг: 0 / 0
23.02.2010, 11:34:01
    #36484066
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
тут можно по-всякому понимать. Либо документы должны храниться в БД, либо какие-то данные должны извлекаться из БД, а помто внедряться в документы...
...
Рейтинг: 0 / 0
23.02.2010, 11:37:40
    #36484073
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
Какую СУБД ты планируешь использовать?
...
Рейтинг: 0 / 0
23.02.2010, 12:12:19
    #36484118
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
да простейшую -MS Access)
...
Рейтинг: 0 / 0
23.02.2010, 12:18:44
    #36484125
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
Вам надо рассмотреть возможность использования более сильной
СУБД (PostgreSQL, MySQL под Windows). У них по крайней мере
существует опция textsearch.
...
Рейтинг: 0 / 0
23.02.2010, 12:25:07
    #36484140
gnot
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Релевантность
ну поскольку не сказано, какую именно надо СУБД... Просто ближе к делу - как Вы видите поставленную задачу?
Что откуда надо извлечь? Как понял, надо запросом вывести из БД какие-то данные, отобразить их в программе в текстовом виде. Сделать возможность поиска неких словосочетаний с учетом релевантности. Под релевантностью я понял так: если есть в запросе, в словосочетании три слова, то первые два слова имеют большую релевантность, чем первое и третье...
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Релевантность / 25 сообщений из 60, страница 1 из 3
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]