powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Релевантность
25 сообщений из 60, страница 1 из 3
Релевантность
    #36481500
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Доброго времени суток други! Здравы будете!
Вот у меня вопросик возник...
Надо сделать программку, в которую можно загружать текст.
Кроме того, в этой программке необходимо осуществлять поиск выбранного слова или словосочетания в других документах, сортируя результат по релевантности. Имеется в виду, что сочетание «мама мыла раму» будет соответствовать искомой строке «мама мыла», а так же строке «мама раму», но уже с меньшим коэффициентом релевантности.

Здесь непонятно, что значит "сортировать по релевантности", "коэффициент релевантности"...

Ведь релевантность - означает соответствие результатов поиска запросу. Чем выше соответствие, тем выше релевантность. В плане контента релевантность – это соответствие описания содержанию.


Объясните пожалуйста, не дайте умереть)
...
Рейтинг: 0 / 0
Релевантность
    #36481630
Vowk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну видимо надо придумать систему "баллов", соответствующую релевантности. Наивысший балл - полное совпадение, затем придумать возможные варианты отклонений от точного совпадения и оценить их.
...
Рейтинг: 0 / 0
Релевантность
    #36481663
Фотография S.G.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
"нечеткий поиск", "полнотекстовый поиск", "контекстный поиск" - по этим фразам сделать поиск :)
...
Рейтинг: 0 / 0
Релевантность
    #36481858
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
S.G."нечеткий поиск", "полнотекстовый поиск", "контекстный поиск" - по этим фразам сделать поиск :)
точно?)
...
Рейтинг: 0 / 0
Релевантность
    #36481912
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Я здесь понимаю так:
Воодим мы в поисковике сочетание "мама мыла". А нам выпадают результаты "мама мыла раму", "мама раму"
Так что-ли?
...
Рейтинг: 0 / 0
Релевантность
    #36482053
an0nym
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gnotЯ здесь понимаю так:
Воодим мы в поисковике сочетание "мама мыла". А нам выпадают результаты "мама мыла раму", "мама раму"
Так что-ли?
По самому простому алгоритму: "мама мыла раму" релевантность 1, "мама раму" релевантность 0.5.
...
Рейтинг: 0 / 0
Релевантность
    #36482122
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
an0nymgnotЯ здесь понимаю так:
Воодим мы в поисковике сочетание "мама мыла". А нам выпадают результаты "мама мыла раму", "мама раму"
Так что-ли?
По самому простому алгоритму: "мама мыла раму" релевантность 1, "мама раму" релевантность 0.5.
Вообще не понял, что же необходимо конечному пользователю... Допустим, я пользователь, открыл текст, ввожу МАМА, а мне выпадает список мама мыла раму, мама раму...
Примерно так?
И как рассчитывать словосочетания с коэффициентом релевантности ?
Как условия задавать?
Что-то вообще запутался...
...
Рейтинг: 0 / 0
Релевантность
    #36482124
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Вообще, ЧТО какой результат должен получить конечный пользователь?
мама мыла раму, мама раму, мама мыла?
...
Рейтинг: 0 / 0
Релевантность
    #36482158
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Или так:
Если ввожу словосочетание "мама мыла раму", то в в первую очередь выпадают часть текстов со словосочетаниями "мама мыла", так что-ли?
Ну или хоть ссылку дайте на алгоритмы поиска по релевантности...
...
Рейтинг: 0 / 0
Релевантность
    #36482162
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gnot,

Не существует какого-то единого, стандартного или универсального способа расчета релевантности.
Этот способ вытекает из требований задачи.

В вашем случае - "поиск выбранного слова или словосочетания" понятие релевантности (почти) вырождается. Т.е. есть нужное слово - 1. Нет - 0. Максимум, что может быть посередине - другие словоформы этого же слова. Но нужно их учитывать или нет - из вашего текста неясно.
...
Рейтинг: 0 / 0
Релевантность
    #36482167
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gnot,

кстати, почитайте тут - http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%BB%D0%B5%D0%B2%D0%B0%D0%BD%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C и далее по ссылкам.
...
Рейтинг: 0 / 0
Релевантность
    #36482224
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
miksoftgnot,

Не существует какого-то единого, стандартного или универсального способа расчета релевантности.
Этот способ вытекает из требований задачи.

В вашем случае - "поиск выбранного слова или словосочетания" понятие релевантности (почти) вырождается. Т.е. есть нужное слово - 1. Нет - 0. Максимум, что может быть посередине - другие словоформы этого же слова. Но нужно их учитывать или нет - из вашего текста неясно.
То есть так:
Мама мыла - есть нужное слово?
мама раму -нет нужного слова?
...
Рейтинг: 0 / 0
Релевантность
    #36482233
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gnotТо есть так:
Мама мыла - есть нужное слово?
мама раму -нет нужного слова?Откуда ж я могу знать как вам надо? Спрашивайте того, кто вам задачу ставил.
...
Рейтинг: 0 / 0
Релевантность
    #36482244
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Надо сделать программу, в которую можно загружать текст.
Кроме того, в этой программке необходимо осуществлять поиск выбранного слова или словосочетания в других документах, сортируя результат по релевантности. Имеется в виду, что сочетание «мама мыла раму» будет соответствовать искомой строке «мама мыла», а так же строке «мама раму», но уже с меньшим коэффициентом релевантности.

Вот и вся задача...
А если отойти от сложных алгоритмов, интегралов по вычислению релевантности, то как должен осуществляться поиск?
Ну например, пользователь ввел в поисковике "мама мыла раму". И ему выпадают ссылки на словосочетания, содержащие данные слова? То есть "мама", "мама мыла", "мама мыла раму","мама раму", "мыла раму"?
вводит слово "мама" - ему выпадают слово "мама".
вводит словосочетание "мама мыла" - ему выпадают "мама", "мама мыла", "мама мыла раму", "мама раму"?

И вообще, откуда я знаю, что пользователь хочет именно сочетание "мама мыла"?
Мо
...
Рейтинг: 0 / 0
Релевантность
    #36482313
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Или можно сделать так:
Есть у нас текст, в котором слово "мама" встречается 10 раз, слово "мыла" -10 раз, слово "раму" - 4 раза.

Тогда в поисковике при вводе слова "мама мыла раму" будут выводиться словосочетания в таком порядке: "мама", "мама мыла", "мама мыла раму", "мама раму" "мыла раму"

Так можно?
...
Рейтинг: 0 / 0
Релевантность
    #36482989
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Можно по всякому. Все алгоритмы поиска в тексте выдают результат в виде нечёткой оценки. Как сравнивать близость шаблона поиска - и документа это ты можешь сам придумать исходя из задачи. Например можно усложнить поиск введя элемент грамматики. Т.е. рама, раму, рамы.... и т.д. будет отображаться на одну сущность токена. Тогда индекс по документу должен быть очищен от падежей, склонений и т.п. Если тебе очень важно найти жёсткую фразу "мама мыла.." тогда индекс должен быть бюлее тяжёлым. Учитывать порядок токенов.
...
Рейтинг: 0 / 0
Релевантность
    #36483782
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
О! Представим себе, что словосочетания находятся в каком -либо поле в таблице БД.
Скажем, есть у нас таблица work. В ней есть поля - id(уникальный идентификатор, можно сделать в виде даты), description (описание работ). В поле description и находятся описания работы нашей мамы)
Структура примерно такая
id Description
1.01 мама мыла раму
2.01 мама мыла пол
3.01 мама мыла шкаф
4.01 мама мыла люстру
5.01 мама раму запечатывала

Как видим, словосочетание "мама мыла" встречается гораздо чаще, следовательно, оно будет более релевантным. А словосочетание "мама раму" - менее релевантно. У слова "мама" получается вообще релевантность 100% )
Так вот, как это сформировать в виде запроса SQL с учетом релевантности каждого слова? И соответственно вывести результат) Как я понял, результат должен выводиться в соотвествии с релевантностью: на первом месте - более релевантные словосочетания, на втором -менее и тд
...
Рейтинг: 0 / 0
Релевантность
    #36483814
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gnotО! Представим себе, что словосочетания находятся в каком -либо поле в таблице БД.
Здесь - архитектурный просчёт. Поисковые системы по тексту так не проектируются. Если вы хотите обсуждать термин релевантность - это одно. А если вы фантазируете на тему, как работает TextSearch - то скорее всего ошибаетесь. Я вообще не понимаю в чём смысл такого (очевидно ненормализованного) хранения данных.
...
Рейтинг: 0 / 0
Релевантность
    #36484052
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
А из самой постановки задачи.
Вот
"Написать приложение, позволяющее заводить в программу данные, содержащие текст.
Данные должны храниться в базе данных.

Программа должна позволять просматривать документы и осуществлять поиск выбранного слова или словосочетания в других документах, сортируя результат по релевантности. Имеется в виду, что сочетание «мама мыла раму» будет соответствовать искомой строке «мама мыла», а так же строке «мама раму», но уже с меньшим коэффициентом релевантности
"
Как это понимать? Что здесь подразумевается под данными, под текстом? Как они должны быть структурированы? Ну и пр и пр...
...
Рейтинг: 0 / 0
Релевантность
    #36484063
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
для меня это что-то из области "Э! Слыыышь! Там короче... ээээ... Ну ты понял!"
...
Рейтинг: 0 / 0
Релевантность
    #36484066
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
тут можно по-всякому понимать. Либо документы должны храниться в БД, либо какие-то данные должны извлекаться из БД, а помто внедряться в документы...
...
Рейтинг: 0 / 0
Релевантность
    #36484073
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Какую СУБД ты планируешь использовать?
...
Рейтинг: 0 / 0
Релевантность
    #36484118
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
да простейшую -MS Access)
...
Рейтинг: 0 / 0
Релевантность
    #36484125
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вам надо рассмотреть возможность использования более сильной
СУБД (PostgreSQL, MySQL под Windows). У них по крайней мере
существует опция textsearch.
...
Рейтинг: 0 / 0
Релевантность
    #36484140
gnot
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ну поскольку не сказано, какую именно надо СУБД... Просто ближе к делу - как Вы видите поставленную задачу?
Что откуда надо извлечь? Как понял, надо запросом вывести из БД какие-то данные, отобразить их в программе в текстовом виде. Сделать возможность поиска неких словосочетаний с учетом релевантности. Под релевантностью я понял так: если есть в запросе, в словосочетании три слова, то первые два слова имеют большую релевантность, чем первое и третье...
...
Рейтинг: 0 / 0
25 сообщений из 60, страница 1 из 3
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Релевантность
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]