|
Сравнение текстов
|
|||
---|---|---|---|
#18+
Как решать задачу, для простоты типа такой: В базе есть таблица с текстовыми полями, хотелсь бы вытащив запись в клиентское приложение дать возможность "Найти похожие" и найти скажем 10 похожих(?) от самого похожего до менее. Вопрос: как сравнивать тексты, в предположении, что они на одном языке? Пробовал SQL Server Semanitc statistics, как-то похоже на то,что надо, но это статистика, скажем сделал две записи с абсолютно одинаковыми текстами, так оно нашло другие "похожие", а 1=1 не нашло. Возможно есть методы лучше. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 14:46 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
"Похожие" - понятие относительное - приведи примеры похожих. У меня есть один алгоритм, но смущает то, что ты упомянул язык. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 15:19 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
- Товарищи курсанты, ваши фамилии? - Иванов, Петров, Сидоров! - Братья что ли? - Никак нет, однофамильцы! ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 15:46 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
Shocker.Pro"Похожие" - понятие относительное - приведи примеры похожих. У меня есть один алгоритм, но смущает то, что ты упомянул язык. Я так понимаю, что без языка никак, с точки зрения юзера. Точнее, похожими могут быть тексты в одном языке. Майкрософт реализовал свой Semantic Search тоже указывая для каких языков. Вот здесь мэйл.ру рассказывает о своем подходе Применение сиамских нейросетей в поиске https://habr.com/ru/company/mailru/blog/468075/ Но мне надо без кликов и т.д. просто находить похожие тексты по каким-о критериям. Читал, что конвертируют текст(слова) в векторы и далее сравнивают, когда надо найти. Расстояние между векторами и будет степень похожести. Вот и пытаюсь найти алгоритм, идею, на чем остановиться. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 16:02 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
Повторяю - приведи примеры похожих текстов по твоему мнению ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 16:26 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
Shocker.ProПовторяю - приведи примеры похожих текстов по твоему мнению В общей формулировке так, как MS пишет: Returns a table of zero, one, or more rows of key phrases that are common across two documents (a source document and a matched document) whose content is semantically similar . https://docs.microsoft.com/en-us/sql/relational-databases/system-functions/semanticsimilaritydetailstable-transact-sql?view=sql-server-2017 Но, я писал выше, у них сделано не совсем ясно как, странно. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 16:34 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
Странно, я, как будто бы плохо пишу по-русски Я делал алгоритм для таких вещей Колесные диски 6x15 4/100/45/54,1 NEXT NX-015 Silver штамп. Штампованный диск NEXT NX-015 6x15 4x100 ET45.0 D54.1 Silver Диск Next NX-015 6x15/4x100 ЕТ45 D54,1 Sil Колесный диск Next NX-015 6 \R15 4x100 ET45.0 D54.1 S Но что тебе нужно сравнивать ты упорно скрываешь. Ну как хочешь. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 17:50 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
Или тут https://www.antiplagiat.ru/ ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 18:42 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
Roman MejtesSoundEx Не, что-то типа семантической схожести ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 19:01 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
Shocker.ProСтранно, я, как будто бы плохо пишу по-русски Я делал алгоритм для таких вещей Колесные диски 6x15 4/100/45/54,1 NEXT NX-015 Silver штамп. Штампованный диск NEXT NX-015 6x15 4x100 ET45.0 D54.1 Silver Диск Next NX-015 6x15/4x100 ЕТ45 D54,1 Sil Колесный диск Next NX-015 6 \R15 4x100 ET45.0 D54.1 S Но что тебе нужно сравнивать ты упорно скрываешь. Ну как хочешь. Вот, да, ближе к такому сравнению.Т.е. по смыслу, может с синонимами. Не скрываю, "что": тексты разные могут быть, например: 1. в базу в таблицу пишутся новости с разных источников 2. база где-то собранных книг, краткое описание ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 19:03 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
Расстояние Левенштейна, не? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2019, 08:24 |
|
Сравнение текстов
|
|||
---|---|---|---|
#18+
Сон Веры ПавловныРасстояние Левенштейна, не? Между строками еще куда ни шло, но между текстами вряд ли. Что-то типа word2vec для набора слов Конечно, возможны коллизии, но это понятно, типа "маша мыла раму" "гурам без мыла машу" ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2019, 08:42 |
|
|
start [/forum/topic.php?fid=20&msg=39865074&tid=1398794]: |
0ms |
get settings: |
9ms |
get forum list: |
10ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
150ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
45ms |
get tp. blocked users: |
1ms |
others: | 256ms |
total: | 488ms |
0 / 0 |