|
Нормализация строк
|
|||
---|---|---|---|
#18+
Вот этот суффикс типа Код: sql 1.
тоже может сильно изменить формулу дистанции. Могут быть ложные срабатывания для других товаров. Кстати этот similarity(..) какой алгоритм использует? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2021, 10:31 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
Dima T Погуглил немного, вот реальные наименования из предложений в инете: А есть еще такие: Можно еще поискать ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2021, 12:31 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
exp98 Dima T Погуглил немного, вот реальные наименования из предложений в инете: А есть еще такие: Можно еще поискать Что первое гугл выдал, то и скопипастил. Хорошо в рекламу вкладываются видать. Так что наше упоминание им продажи не увеличит. А в остальном этот бренд гадость редкостная, когда дети маленькие были жена говорила не брать его ни при каком раскладе ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2021, 12:45 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
mayton Могут быть ложные срабатывания для других товаров. У нас в Перекрёстки с недавних лет помидоров не стало, их постепенно вытеснили томаты. А так хочется помидорчиков! А что в других регионах? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2021, 13:02 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
mayton Вот этот суффикс типа Код: sql 1.
Не знаю новейших практик. М.б. подобное уже зашивают в классификациютоварных групп? Например одежда изначально классифицировалась матрично: цвето-размер. Прикол по случаю В маге на стенке есть считыватели штрих-кода, чтоб мы сами цену узнавали. Иногда они зависают. Раз я взял и перезапустил девайс, а там загрузился маленький Виндовс. Не помню, то ли через "Пуск" загрузил прогу, или не удалось... ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2021, 13:07 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
exp98, Можно тут найти похожие слова для "помидор" https://rusvectores.org/ авторогурец 0.775 морковь 0.726 овощ 0.711 баклажан 0.706 капуста 0.704 арбуз 0.701 салат 0.690 чеснок 0.687 томат 0.684 фасоль 0.670 Помидор больше похож на огурец, чем на томат. На этот случай наверное нужен свой словарь синонимов ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2021, 13:14 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
mayton Вот этот суффикс типа Код: sql 1.
тоже может сильно изменить формулу дистанции. Могут быть ложные срабатывания для других товаров. Кстати этот similarity(..) какой алгоритм использует? Это функция из расширения pg_trgm для PostgreSQL. Разбирает строки на буквенные триграммы и считает долю общих. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2021, 13:39 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
Код: python 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39.
Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.
... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2021, 19:50 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
mayton, как это следует интерпретировать? Вот другой пример: Код: sql 1. 2. 3. 4.
similaritylevenshtein122 ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2021, 00:09 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
Ы2 Вот другой пример: Код: sql 1. 2. 3. 4.
similaritylevenshtein122 Как я понимаю, функция levenshtein просто считает РЛ для переданных строк, это не совсем верный подсчет РЛ (в контексте топика): в случае, когда строка содержит несколько слов, нужно составить матрицу расстояний между словами, потом искать по ней порядок слов, при котором сумма РЛ будет минимальной, возможно, увеличивая результат при перестановке слов. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2021, 04:15 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
Да. Левенштейн - редакционное расстояние между текстами. Я точно не помню какая формула метрики - но кажется берется удаление + перенос символов + вставка. В данном случае similarity сработал лучше (похоже на 1-й алгоритм который я предлагал выше) без учота перемещения лексем внутри sentence. Кажется этого-же эффекта мы могли добиться сортируя слова в фильтрации. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2021, 12:18 |
|
Нормализация строк
|
|||
---|---|---|---|
#18+
mayton, РЛ = вставки + замены + удаления; обычно можно настраивать вклад каждой категории. Все это время я пытался наглядно показать, что для нечеткого поиска N-граммы — триграммы как частный случай — всегда лучше расстояния Левенштейна. Само по себе РЛ неинформативно, пока не знаешь длины строки: РЛ = 2 между «рыба» и «глыба» (заведомо разные), между «заяц плюшевый большой» и «зайц плюшевый болшой» (неграмотность и опечатка), а так же между «ваш звонок очень важен для нас» и «наш звонок очень важен для вас» (тут и триграммы бессильны). ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2021, 18:39 |
|
|
start [/forum/moderation_log.php?user_name=%D0%90%D0%BB%D0%B5%D0%BA%D1%81%D0%B0%D0%BD%D0%B4%D1%80+%D0%9F%D0%9A]: |
0ms |
get settings: |
12ms |
get forum list: |
14ms |
get settings: |
11ms |
get forum list: |
12ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
184ms |
get topic data: |
11ms |
get first new msg: |
8ms |
get forum data: |
2ms |
get page messages: |
58ms |
get tp. blocked users: |
2ms |
others: | 1213ms |
total: | 1535ms |
0 / 0 |