Начальная форма слова / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Начальная форма слова

22 сообщений из 47, страница 2 из 2

все

Начальная форма слова

#40119560

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

Ы2

_avz, эта проблема называется «синтаксическая омонимия», без контекста не решается.

это понятно.
Я имел в виду то, что в случае 22408739 однозначное решение есть,
но по стему (метод, предложенный в 22408723 ) не находится

...

Рейтинг:

0 / 0

13.12.2021, 09:30

| Ответить | Цитировать | Написать

Начальная форма слова

#40119571

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Я там в тесте ещё одну ошибку допускаю из за которой последнее слово в строке неверно стеммингуется.

...

Рейтинг:

0 / 0

13.12.2021, 10:28

| Ответить | Цитировать | Написать

Начальная форма слова

#40119572

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Ы2,

Да я согласен. Не подходит.

...

Рейтинг:

0 / 0

13.12.2021, 10:29

| Ответить | Цитировать | Написать

Начальная форма слова

#40119596

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

В общем, худо-бедно на постгресе заработало
как сконфигурировал:
1. скачал словарь https://github.com/postgrespro/hunspell_dicts/tree/master/hunspell_ru_ru
2. скопировал в папку pg SHAREDIR\tsearch_data
3. создал словарь

Код: sql

1.
2.
3.
4.
5.
6.

CREATE TEXT SEARCH DICTIONARY ru_dic (
   TEMPLATE = ispell,
   dictfile = 'ru_ru',
   afffile = 'ru_ru',
   stopwords='russian'
);

4. создал конфигурацию полнотекстового поиска:

Код: sql

1.
2.

CREATE TEXT SEARCH CONFIGURATION ru_cfg (    PARSER = default);
ALTER TEXT SEARCH CONFIGURATION ru_cfg    ADD MAPPING FOR word WITH  ru_dic

5.запрос

Код: sql

select ts_lexize('ru_dic2', 'души')

выдаёт
{душа,душить}
т.е., или про "душ" словарь не в курсе, или...

...

Рейтинг:

0 / 0

13.12.2021, 12:04

| Ответить | Цитировать | Написать

Начальная форма слова

#40119602

fkthat

Участник

Сообщения: 3 601

Рейтинг: 0 / 0

Ы2

Словарь для hunspell от PostgresPro делает все это за исключением выбора правильной леммы (словарной формы) в случае таких форм, как «души» (мн. ч. от «душа» или повел. накл. от «душить»?).

Ну это задача совершенно другого уровня сложности, т.к. между "души -> душа" и "души -> душить" без анализа контекста выбрать невозможно. Только выдать все возможные варианты.

...

Рейтинг:

0 / 0

13.12.2021, 12:16

| Ответить | Цитировать | Написать

Начальная форма слова

#40119603

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

хватает и других косяков:

Код: sql

select ts_lexize('ru_dic2', 'пей')

{пей} - хотя должно быть 'пить'
шей-{шей,шея}
беги-{беги,бег}
хотя
гляди-{глядеть}, верно

и, судя по всему, ещё много чего вскроется по ходу тестирования :)

...

Рейтинг:

0 / 0

13.12.2021, 12:16

| Ответить | Цитировать | Написать

Начальная форма слова

#40119609

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

_avz, ты выкопал себе могилу

Ну будешь ближайшие пол-года заниматься морфологией русского языка.

...

Рейтинг:

0 / 0

13.12.2021, 12:32

| Ответить | Цитировать | Написать

Начальная форма слова

#40119610

fkthat

Участник

Сообщения: 3 601

Рейтинг: 0 / 0

mayton

_avz, ты выкопал себе могилу

Ну будешь ближайшие пол-года заниматься морфологией русского языка.

Возможно, автору следовало бы начать с рассказа для чего ему все это нужно. Но на скуле это не принято. :))

...

Рейтинг:

0 / 0

13.12.2021, 12:34

| Ответить | Цитировать | Написать

Начальная форма слова

#40119612

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

fkthat,
для сравнения двух текстов
выдать слова, которые есть в одном, но отсутствуют в другом

...

Рейтинг:

0 / 0

13.12.2021, 12:36

| Ответить | Цитировать | Написать

Начальная форма слова

#40119613

fkthat

Участник

Сообщения: 3 601

Рейтинг: 0 / 0

_avz

выдать слова, которые есть в одном, но отсутствуют в другом

Так а зачем для этого именно лематизация? Мне кажется что и стемминга должно хватить.

...

Рейтинг:

0 / 0

13.12.2021, 12:38

| Ответить | Цитировать | Написать

Начальная форма слова

#40119615

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

_avz

fkthat,
для сравнения двух текстов
выдать слова, которые есть в одном, но отсутствуют в другом

Господин выше правильно по тексту сказал. Что для анализа слов ЯЗЫКа нам нужно больше контекста.

А так получается

Код: sql

Косил косой косой косой

и вот ищи где тут глагол и существительное в падежах.

...

Рейтинг:

0 / 0

13.12.2021, 12:39

| Ответить | Цитировать | Написать

Начальная форма слова

#40119617

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

fkthat

Так а зачем для этого именно лематизация? Мне кажется что и стемминга должно хватить.

'душили' выдаст стем 'душ'
а лемма выдаёт 'душить'
всё же лучше

mayton

А так получается

Код: sql

Косил косой косой косой

и вот ищи где тут глагол и существительное в падежах.

здесь уже приходится смириться с нестопроцентным качеством анализа,
в семантику я точно не полезу

...

Рейтинг:

0 / 0

13.12.2021, 12:46

| Ответить | Цитировать | Написать

Начальная форма слова

#40119654

Roman Mejtes

Участник

Откуда: г. Пермь

Сообщения: 4 264

Рейтинг: 0 / 0

в машин-лёрнинге наверное решали такие задачи?

...

Рейтинг:

0 / 0

13.12.2021, 14:51

| Ответить | Цитировать | Написать

Начальная форма слова

#40119656

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

_avz

fkthat

Так а зачем для этого именно лематизация? Мне кажется что и стемминга должно хватить.

'душили' выдаст стем 'душ'
а лемма выдаёт 'душить'
всё же лучше

mayton

А так получается

Код: sql

Косил косой косой косой

и вот ищи где тут глагол и существительное в падежах.

здесь уже приходится смириться с нестопроцентным качеством анализа,
в семантику я точно не полезу

Если тебе нужен критерий "близости" двух документов то может быть не надо вообще раскладывать на национальные языки.

Считай расстояние Дамерау Левенштейна между всеми словами. Есть стандартная функция в apache.commons. Если расстояние
допустим меньше 1 или 2 то считай одним словом. Тогда осталось посчитать просто % таких слов в двух документах.

Метрика грубая. Неязыковая. Но достаточная чтобы просто группировать документы в кучки.

...

Рейтинг:

0 / 0

13.12.2021, 14:57

| Ответить | Цитировать | Написать

Начальная форма слова

#40119657

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

Roman Mejtes

в машин-лёрнинге наверное решали такие задачи?

если ко мне вопрос, то нет.

...

Рейтинг:

0 / 0

13.12.2021, 15:04

| Ответить | Цитировать | Написать

Начальная форма слова

#40119659

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

mayton

В моём случае результат устроил.
Уже в разы лучше, чем когда я сравнивал тупо по словам.

...

Рейтинг:

0 / 0

13.12.2021, 15:06

| Ответить | Цитировать | Написать

Начальная форма слова

#40123163

Ролг Хупин

Участник

Откуда: Чебаркуль

Сообщения: 4 817

Рейтинг: 0 / 0

_avz

mayton

В моём случае результат устроил.
Уже в разы лучше, чем когда я сравнивал тупо по словам.

То есть так хотелось чуда, а его нету

Поставьте себе SQL Server какой-нибудь в минимальной версии у него есть fts* функции, которые выдают найденные слова указанного языка. Эту же фигню можете использовать для сравнения двух текстов. Но помните - ваша задача не решается за пару дней и с уровнем знаний "хеллоу ворлд". Кина не будет, расслабьтесь :-)

...

Рейтинг:

0 / 0

26.12.2021, 15:42

| Ответить | Цитировать | Написать

Начальная форма слова

#40123281

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

моя задача решилась, так-то :)

...

Рейтинг:

0 / 0

27.12.2021, 07:58

| Ответить | Цитировать | Написать

Начальная форма слова

#40123439

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Забил в базу 100500 слов?

...

Рейтинг:

0 / 0

27.12.2021, 19:17

| Ответить | Цитировать | Написать

Начальная форма слова

#40123503

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

mayton,

Хватило той последовательности шагов, что я изложил выше.
Можно сказать, это решение вопроса. Очень простое.
Неидеальное, но достаточное.

...

Рейтинг:

0 / 0

28.12.2021, 07:32

| Ответить | Цитировать | Написать

Начальная форма слова

#40123504

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

В чём неидеальность - список слов, который выдаётся в результате сравнения текстов, чуть больше, чем должен.
Например, слово "пей" будет считаться отличным от слова "пил", и будет включено, хотя, по идее, это одно и то же слово.
Но основная масса словоформ отфильтровывается.
Меня устраивает: в таких нечётких задачах ожидать чего-то большего - странно.

...

Рейтинг:

0 / 0

28.12.2021, 07:45

| Ответить | Цитировать | Написать

Начальная форма слова

#40123506

_avz

Участник

Откуда: Пермь

Сообщения: 2 910

Рейтинг: 0 / 0

Понятно, от анализатора невозможно ожидать и понимания, что, например, слово "душа" в тексте 2 использовано в ином смысле, чем в тексте 1, и должно быть включено в список.

Выскажу предположение, что даже с универсальным ИИ такие вещи не решаемы на 100%
(Когда даже ЕИ может ошибиться :)
Контекст может скрываться сколь угодно далеко за уровнем самого текста.

...

Рейтинг:

0 / 0

28.12.2021, 07:57

| Ответить | Цитировать | Написать

22 сообщений из 47, страница 2 из 2

все

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Начальная форма слова

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&gotonew=1&tid=1339604]:	0ms
get settings:	10ms
get forum list:	20ms
check forum access:	4ms
check topic access:	4ms
track hit:	180ms
get topic data:	9ms
get first new msg:	5ms
get forum data:	2ms
get page messages:	49ms
get tp. blocked users:	1ms
others:	236ms

total:	520ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы