Нормализация строк / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Нормализация строк

25 сообщений из 37, страница 1 из 2

все

Нормализация строк

#40103814

Mixon

Гость

День добрый!
Подскажите как определить что
"Яблочное пюре" и "Пюре яблочное" в принципе одно и тоже, данные как пример, слова могут видо изменяться типа "Пюре из яблок".

Заранее спасибо за советы!

...

Рейтинг:

0 / 0

12.10.2021, 15:12:26

| Ответить | Цитировать | Написать

Нормализация строк

#40103815

Никанор Кузьмич

Участник

Откуда: Москва

Сообщения: 451

Рейтинг: 0 / 0

Встречный вопрос: "человек разумный" и "разумный человек" - это в принципе одно и то же или нет?

...

Рейтинг:

0 / 0

12.10.2021, 15:14:32

| Ответить | Цитировать | Написать

Нормализация строк

#40103839

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

В данном случае можно разбить на слова и отсортировать по алфавиту, но это не всегда работает, есть исключения когда порядок слов играет роль.
Сходу пример не придумаю, близкое: "копчено-вареный" и "варено-копченый" это два разных способа приготовления.

...

Рейтинг:

0 / 0

12.10.2021, 16:04:29

| Ответить | Цитировать | Написать

Нормализация строк

#40103842

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

По хорошему надо какую-то классификацию слов вводить. Например в данном случае слово "пюре" это форма выпуска, "яблочное" это вкус. Для нормализации достаточно например идентифицировать форму выпуска и убрать в сторону как признак товара. Тогда сначала отдельно сравниваем форму, а если совпала, то остальное. Но в остальном тоже могут быть подставы типа "Пюре яблочное с корицей".

...

Рейтинг:

0 / 0

12.10.2021, 16:09:01

| Ответить | Цитировать | Написать

Нормализация строк

#40103868

WebSharper

Участник

Сообщения: 304

Рейтинг: 0 / 0

Наверное, как-то так

...

Рейтинг:

0 / 0

12.10.2021, 17:09:11

| Ответить | Цитировать | Написать

Нормализация строк

#40103910

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

WebSharper

Наверное, как-то так

Нет, распознавание речи тут мало поможет. Оно заточено на разговорный язык.
Наименования товаров далеки от обычного разговорного, это не связное предложение, а набор характеристик, причем многие написаны сокращенно.

...

Рейтинг:

0 / 0

12.10.2021, 20:00:56

| Ответить | Цитировать | Написать

Нормализация строк

#40103923

exp98

Участник

Сообщения: 2 390

Рейтинг: 0 / 0

Х-ха! Семантику по грамматике ))
Меня однажды попробавали нагнуть автоматизацией поиска в инете. По названию товара неизвестно где выявить его цену))

...

Рейтинг:

0 / 0

12.10.2021, 21:03:10

| Ответить | Цитировать | Написать

Нормализация строк

#40104164

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Mixon

Мы находимся не в гуманитарном, а в техническом форуме. И поэтому задача должна быть поставлена технически.

В противном случае - она просто переходит в область ЗПТ или дискуссий ВопросОтвет.

Давайте перечислим алгоритмы нормализации строк Русского языка .
Я делаю упор на Русский язык потому-то нормализация другого языка
будет скорее всего совсем другим алгоритмом. Как "сумма прописью".

Потом поищем готовые реализации этих алгоритмов.

И потом поищем справочники слов или базы данных если таковые нужны.

...

Рейтинг:

0 / 0

13.10.2021, 16:06:28

| Ответить | Цитировать | Написать

Нормализация строк

#40104175

x1ca4064

Участник

Сообщения: 1 191

Рейтинг: 0 / 0

Mixon

Подскажите как определить что
"Яблочное пюре" и "Пюре яблочное" в принципе одно и тоже, данные как пример, слова могут видо изменяться типа "Пюре из яблок".

Заранее спасибо за советы!

Необходимо ввести расстояние между названиями: когда решал подобную задачу для наименований алкоголя, использовал расстояние Левенштейна (РЛ) и "ручной подбор", т.е. оператор для каждого наименования видел отсортированный по РЛ список кандидатов, оттуда и выбирал, так строился справочник. Сейчас можно попробовать вместо РЛ использовать какой-нибудь Word2Vec и считать расстояние между векторами.
Конкретная реализация, думаю, должна зависеть от предметной области: сколь автоматическим/точным должен быть подбор, сколько и каких строк нужно сравнивать (список названий или произвольные тексты).

...

Рейтинг:

0 / 0

13.10.2021, 16:56:17

| Ответить | Цитировать | Написать

Нормализация строк

#40104190

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

Mixon, можно попробовать использовать триграммное сходство. Например, его реализация в PostgreSQL считает, что «яблочное пюре» и «пюре яблочное» не различаются вовсе, а сходство любой из этих строк с «пюре из яблок» около 47%.

...

Рейтинг:

0 / 0

13.10.2021, 17:59:23

| Ответить | Цитировать | Написать

Нормализация строк

#40104196

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Ы2

А "яблочная репа" будет ближе к "яблочному пюре" нежели чем "пюре из яблок".

Вот такой метафизический парадокс.

...

Рейтинг:

0 / 0

13.10.2021, 18:36:30

| Ответить | Цитировать | Написать

Нормализация строк

#40104233

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

mayton

Давайте перечислим алгоритмы нормализации строк Русского языка .

И что ты там собрался нормализовывать? Выделять подлежащее, сказуемое и т.д. и т.п.? В наименовании товара ничего этого нет, это просто перечисление разных характеристик, причем некоторые остаются неупомянуты, т.к. существуют в одном экземпляре.

Штрихкод легко решает все проблемы на 99%

...

Рейтинг:

0 / 0

13.10.2021, 21:40:29

| Ответить | Цитировать | Написать

Нормализация строк

#40104237

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Ы2

Жёлтый и белый тоже очень похожи по написанию

...

Рейтинг:

0 / 0

13.10.2021, 21:51:05

| Ответить | Цитировать | Написать

Нормализация строк

#40104358

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Штрихкод - это не тема топика вроде как.

...

Рейтинг:

0 / 0

14.10.2021, 12:51:47

| Ответить | Цитировать | Написать

Нормализация строк

#40104443

exp98

Участник

Сообщения: 2 390

Рейтинг: 0 / 0

Точно также поступил, когда нормализовывал улицы, писанные вразнобой.

x1ca4064

Необходимо ввести расстояние между названиями ... "ручной подбор" ...
должна зависеть от предметной области

Ещё использовал модель ошибок в написании. Т.к. из подвохов могут быть латинские вместо русских и наоборот, очепятки-перестановки, регистр и прочее. МО - почти единственное, могущее быть для универсальной нормализации.
Ещё подвох - омонимы и какая-никакая контекстная зависимость.

...

Рейтинг:

0 / 0

14.10.2021, 15:18:01

| Ответить | Цитировать | Написать

Нормализация строк

#40104450

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

mayton

Штрихкод - это не тема топика вроде как.

Я так понимаю ТС хочет находить одинаковые товары по разному написанные. Большинство товаров нынче имеют штрихкод.

...

Рейтинг:

0 / 0

14.10.2021, 15:26:23

| Ответить | Цитировать | Написать

Нормализация строк

#40104488

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

Dima T

Ы2

Жёлтый и белый тоже очень похожи по написанию

Это вам только кажется. У них триграммное сходство 8,3%.

...

Рейтинг:

0 / 0

14.10.2021, 16:17:33

| Ответить | Цитировать | Написать

Нормализация строк

#40104522

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Dima T

mayton

Штрихкод - это не тема топика вроде как.

Вернемся к яблокам.

Для данного частного случая:

Код: java

Яблочное пюре - пюре из яблок

Я-бы предложил следующее.

Триграммный поиск - не вариант т.к. тут не опечатка а морфологическое преобразование.
Нам нужно все слова и выражения свести к единой основе.

Код: sql

ЯБЛОКО ПЮРЕ

и обеспечить правильный порядок. Можно задать ранг слов или положить их в SortedSet.

По триграммам. Про близость "пюре" и репа я уже писал. Надо практически посмотреть и взять хотя-бы штук 100-200
реальных названий и прогнать их по тесту.

Короче сложность решения задачи сильно зависит от качества самих исходных данных. Триграммы и биграммы и прочие N-граммы
это - слишком простой подход. Он может даже и не на текст ориентирован на например на генетику (биологию)
и он может хорошо работать в одних случаях, а в случаях с мофологией и лемматизацией он может просто
давать очень плохие результаты.

...

Рейтинг:

0 / 0

14.10.2021, 17:44:56

| Ответить | Цитировать | Написать

Нормализация строк

#40104568

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Ы2

Dima T

пропущено...

Жёлтый и белый тоже очень похожи по написанию

Это вам только кажется. У них триграммное сходство 8,3%.

Триграмное да, а левенштейн очень близок, выделил совпадающие буквы: ЖЕЛТЫЙ БЕЛЫЙ

...

Рейтинг:

0 / 0

14.10.2021, 21:51:16

| Ответить | Цитировать | Написать

Нормализация строк

#40104581

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

mayton, близость «пюре» и «репа» — еще более мнимая, чем «желтый» и «белый»: триграммное сходство 0%, РЛ = 4 и равно длине слова.

«яблочная репа» дальше от «яблочное пюре» (27%), чем «пюре из яблок» (47%).

Вы ошибочно полагаете, что триграммное сходство — для поиска опечаток. Оно для поиска строк, совпадающих по большей части . Для опечаток — расстояние Левенштейна.

Поэтому, на мой взгляд, самое простое решение — сформировать по триграммам список кандидатов на отождествление и отдать оператору, пусть решает вручную.

...

Рейтинг:

0 / 0

14.10.2021, 22:48:40

| Ответить | Цитировать | Написать

Нормализация строк

#40104607

Ares_ekb

Участник

Откуда: Екатеринбург

Сообщения: 645

Рейтинг: 0 / 0

Если решать в лоб, то можно
1) составить словарь нормализованных строк
2) посчитать для этого словаря N-граммы
3) затем для входных строк применять какую-нибудь очистку, если требуется (с помощью регулярных выражений и т.п.)
4) вычислять для них такие же N-граммы
5) сравнивать их с N-граммами из словаря, можно просто перемножением векторов, можно с помощью TF-IDF
6) установить порог, выше которого считаем, что строки похожи, например, 0.8 (подбирается экспериментально путём подсчета ошибок при разных значениях)
7) если в словаре найдено похожее слово, с мерой похожести выше порога, то считаем его нормализованным представлением строки
8) скорее всего, алгоритм не будет давать 100% результат, смотрим что получается и дальше накручиваем ещё какие-нибудь эвристики

Я, например, использовал такой подход для нормализации адресов. В качестве словаря использовал ФИАС. Использовал биграммы, а не триграммы (тут можно поэкспериментировать). Использовал кучу регулярок для разбиения адреса на части (регион, город, улица, дом и т.д.) и сравнивал каждую часть адреса отдельно, потому что очень много похожих слов типа Свердловская область, улица Свердлова, проспект Свердлова и т.п. Если сравнивать регионы, улицы и т.п. отдельно, то это существенно улучшает алгоритм. Плюс для ускорения и оптимизации можно сначала определить регион, а потом искать совпадения уже внутри него.

Соответственно вы тоже можете попробовать использовать эти штуки (если это применимо):
1) Разбить строку на части, сравнивать слова отдельно
2) Каким-то образом отнести строку к одной из подкатегорий и сравнивать только со строками этой категории
3) Использовать регулярки для предварительной очистки или разбиения строк

Ещё можно посмотреть https://yandex.ru/dev/mystem/ может пригодится.

И конечно же можно посмотреть https://rusvectores.org/ Они как и N-граммы позволяют превращать слова в векторы, но(!) таким образом, что близкие по смыслу слова имеют близкие векторы. Это позволяет делать вещи типа семантических калькуляторов, поиска аналогий, поиска похожих вещей и т.п.

...

Рейтинг:

0 / 0

15.10.2021, 04:59:39

| Ответить | Цитировать | Написать

Нормализация строк

#40104616

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Погуглил немного, вот реальные наименования из предложений в инете:

Код: sql

1.
2.
3.

ФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100,0
ФрутоНяня Пюре яблоко натур 100г N 1
Пюре ФрутоНяня Яблоко с 4 месяцев 100.000 г

А есть еще такие:

Код: sql

1.
2.

Пюре ФрутоНяня Груша с 4 месяцев 100.000 г
Фрутоняня пюре 100 г груша/яблоко

Можно еще поискать

...

Рейтинг:

0 / 0

15.10.2021, 07:32:34

| Ответить | Цитировать | Написать

Нормализация строк

#40104634

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

Dima T

Погуглил немного, вот реальные наименования из предложений в инете:

Код: sql

1.
2.
3.

ФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100,0
ФрутоНяня Пюре яблоко натур 100г N 1
Пюре ФрутоНяня Яблоко с 4 месяцев 100.000 г

А есть еще такие:

Код: sql

1.
2.

Пюре ФрутоНяня Груша с 4 месяцев 100.000 г
Фрутоняня пюре 100 г груша/яблоко

Можно еще поискать

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.

with a (t) as (
	values ('ФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100,0'),
		('ФрутоНяня Пюре яблоко натур 100г N 1'),
		('Пюре ФрутоНяня Яблоко с 4 месяцев 100.000 г'),
		('Пюре ФрутоНяня Груша с 4 месяцев 100.000 г'),
		('Фрутоняня пюре 100 г груша/яблоко')
)
select
	a.t,
	b.t,
	similarity(a.t, b.t)
from a, a as b
where a.t <> b.t
order by similarity desc;

вариант 1вариант 2сходствоПюре ФрутоНяня Яблоко с 4 месяцев 100.000 гПюре ФрутоНяня Груша с 4 месяцев 100.000 г0.75Пюре ФрутоНяня Груша с 4 месяцев 100.000 гПюре ФрутоНяня Яблоко с 4 месяцев 100.000 г0.75Пюре ФрутоНяня Яблоко с 4 месяцев 100.000 гФрутоняня пюре 100 г груша/яблоко0.5833333Фрутоняня пюре 100 г груша/яблокоПюре ФрутоНяня Яблоко с 4 месяцев 100.000 г0.5833333Фрутоняня пюре 100 г груша/яблокоФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100.00.575ФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100.0Фрутоняня пюре 100 г груша/яблоко0.575Фрутоняня пюре 100 г груша/яблокоФрутоНяня Пюре яблоко натур 100г N 10.5681818ФрутоНяня Пюре яблоко натур 100г N 1Фрутоняня пюре 100 г груша/яблоко0.5681818Фрутоняня пюре 100 г груша/яблокоПюре ФрутоНяня Груша с 4 месяцев 100.000 г0.5416667Пюре ФрутоНяня Груша с 4 месяцев 100.000 гФрутоняня пюре 100 г груша/яблоко0.5416667ФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100.0ФрутоНяня Пюре яблоко натур 100г N 10.5ФрутоНяня Пюре яблоко натур 100г N 1ФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100.00.5Пюре ФрутоНяня Яблоко с 4 месяцев 100.000 гФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100.00.48979592ФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100.0Пюре ФрутоНяня Яблоко с 4 месяцев 100.000 г0.48979592ФрутоНяня Пюре яблоко натур 100г N 1Пюре ФрутоНяня Яблоко с 4 месяцев 100.000 г0.46296296Пюре ФрутоНяня Яблоко с 4 месяцев 100.000 гФрутоНяня Пюре яблоко натур 100г N 10.46296296Пюре ФрутоНяня Груша с 4 месяцев 100.000 гФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100.00.39215687ФРУТОНЯНЯ ПЮРЕ ЯБЛОЧНОЕ 100.0Пюре ФрутоНяня Груша с 4 месяцев 100.000 г0.39215687ФрутоНяня Пюре яблоко натур 100г N 1Пюре ФрутоНяня Груша с 4 месяцев 100.000 г0.30508474Пюре ФрутоНяня Груша с 4 месяцев 100.000 гФрутоНяня Пюре яблоко натур 100г N 10.30508474

Не идеально, конечно, но можно начинать что-то городить вокруг этого.

...

Рейтинг:

0 / 0

15.10.2021, 09:41:51

| Ответить | Цитировать | Написать

Нормализация строк

#40104640

Ares_ekb

Участник

Откуда: Екатеринбург

Сообщения: 645

Рейтинг: 0 / 0

Ы2

но можно начинать что-то городить вокруг этого

Например, с помощью регулярок отделить массу и возраст. Ещё можно составить отдельные словари для типов продукции (пюре), для сырья (яблоко, груша), для брендов (ФрутоНяня), сначала можно сопоставлять отдельные слова, каждое из них приводить к нормализованному виду (как в словаре), а затем уже сопоставлять всю строку, в которой каждое отдельное слово уже нормализовано. Не знаю даст это что-то или нет, но в таких задачах первый шаг делается легко, но потом разобраться со всякими крайними случаями - целая история.

Тут ещё непонятен вопрос. Нужно сравнивать все строки со всеми, тогда это задача кластеризации. Либо всё-таки есть словарь правильных, нормализованных строк, и нужно сравнивать новые строки со словарем.

...

Рейтинг:

0 / 0

15.10.2021, 10:02:50

| Ответить | Цитировать | Написать

Нормализация строк

#40104647

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Ы2

Код: sql

where a.t <> b.t

Чтобы не двоилось лучше так

Код: sql

where a.t > b.t

Ы2

Не идеально, конечно, но можно начинать что-то городить вокруг этого.

ИМХО, как выше написали, начинать надо с выделения характеристик: брэнд, тип, вкус, вес и т.д. а дальше нераспознанное можно этим способом досравнивать.

...

Рейтинг:

0 / 0

15.10.2021, 10:29:40

| Ответить | Цитировать | Написать

25 сообщений из 37, страница 1 из 2

все

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Нормализация строк

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&tid=1339623]:	0ms
get settings:	10ms
get forum list:	13ms
check forum access:	3ms
check topic access:	3ms
track hit:	85ms
get topic data:	11ms
get forum data:	3ms
get page messages:	59ms
get tp. blocked users:	1ms
others:	215ms

total:	403ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы