|
|
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Есть неиспользующие словари в явном виде алгоритмы стемминга наподобие Snowball http://snowball.tartarus.org/algorithms/russian/stemmer.html Но они решают другую задачу. Может это как-то поможет автору или натолкнёт его на мысли. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.03.2014, 14:56 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
mayton, а можно поподробнее? что это такое и какие задачи обычно решает? По ссылки сходил, но где это можно применить в мирных целях, не понял. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.03.2014, 15:08 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
В поисковых системах используется. Когда текст индексируется - все слова в нём проходят фазы обработки. Удаляются стоп-слова (междометия, союзы). Оставшиеся идут на обработку процессу стемминга. После этого они идут в текстовый индекс (могу ошибаться но так должны работать Sphinx, Lucene e.t.c.). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.03.2014, 15:15 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid Kudryavtsev, Задача абсолютно четкая и понятная. Необходимо их просто найти-выделить-узнать количество. mayton это не часть технического проекта. Можно сказать задачка из сборника. Есть текст и с ним необходимо провести некоторые операции. Например, выяснить число слов, посчитать существительные, сколько раз употребляется Я или Ты и тому подобные. Но дело в том, что если все остальные задания более-менее связаны друг с другом и реализовать их удалось, то к чему было задано это задание я понятия не имею. И уж как его корректно сделать тем более... Посчитаю по окончаниям. Пусть погрешность, да и ладно... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 15:33 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaПосчитаю по окончаниям. Пусть погрешность, да и ладно... Это нормально. Будет прогрешность. Пример с "Косил косой..." тебе приводили как лингвистический парадокс. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 15:41 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Только как выделить "окончание", мне крайне интересно. Без списка корней слов (словаря). На данной страницы фраза: "В поисковых системах используется..." поисковая - прилагательное система - существительное и то и другое заканчивается на "х" ))) Не претендую на знания русского языка. Но блин, задания не для программиста. а для "филолога - теоретика - мат стат вероятностного анализа" ))) по такому заданию. можно не только кандидатскую, но и докторскую диссертацию защитить. IMHO во-пе́р-вых - наречие передых - существительное (по версии викисловаря) Все таки random будет точнее ))) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 16:08 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaЗадача абсолютно четкая и понятная. Необходимо их просто найти-выделить-узнать количество.... абсолютно - Наречие Необходимо - Предикатив просто - Наречие, также предикатив, союз, частица; количество - существительное Все заканчивается на "о". абсолютно - Корень: -абсолют-; суффикс: -н; окончание: -о. просто - Корень: -прост-; суффикс: -о. количество - Корень: -колич-; суффикс: -еств; окончание: -о. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 16:13 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
по ссылки Snowball уверяют: на -но оканчиваются verb (глаголы) /и follow by "a"/ на -о оканчиваются noun (существительные) Можно посмотреть слова оканчивающиеся на -но. Существительных из них не мало: гальвано пиано фортепиано - сущ. рано сопрано - сущь гуано - сущь ... Все же, я за RANDOM ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 17:09 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid KudryavtsevВсе же, я за RANDOM Будет вам. Неконструктивно-же... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 17:34 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
maytonБудет вам. Неконструктивно-же... Дык в чем неконстрктивно? По буквам в конце слова, определить принадлежность к части речи можно только +/- километр А накапливать статистику использования окончаний слов в различном контексте - тянет на докторскую дисертацию для филолога. Ну и не надо путать алгоритмы пытающиеся "вычистить" текст для поиска и какой-то смысловой анализ (существительное/прилагательное). Пример с окончаниями по Вашей ссылки я привел. Так же как и слова из "абсолютно четкого и понятного" предложения самого автора. Вот Вы предложили ориентировать на окончания (не в лингвистическом значении слова), приведите пример ссылки, где было бы написано, с какой вероятностью окончание соотносится с той или иной частью речи. Я уже не говорю, про специфические тексты. Я уже не говорю, что собственно таблица окончаний + вероятность == словарь. С данной задачей практически сталкивался, разбор текста. Но мне нужен быть _практический_ результат, а не сделать бессмысленное задание. Практический результат без оператора или без словаря - получить не удалось. Видел опыт реализацию нечеткого поиска у одного из моих коллег в учетной системе. Я изначально относился скиптически. По итогам эксплуатации, пользователи, насколько я знаю, так же попросили отключить. Т.к. мусора от данного нечеткого поиска было больше, чем пользы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 17:53 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid KudryavtsevmaytonБудет вам. Неконструктивно-же... Дык в чем неконстрктивно? По буквам в конце слова, определить принадлежность к части речи можно только +/- километр Можно и так. Эта система выдаёт вероятностный ответ так-же как и Newral Networks, Fuzyy Logic e.t.c. Просто твой совет с random- предполагает что ты вообще ничего не знаешь, и говоришь что это 50% слово существительное и 50% нет. А я говорю что Если на 1000 слов заканчивающихся на "-но" мы нашли 750 существительных то я могу утверждать что наша система выдаёт вероятностный ответ. Я говорю - это слово существительное с вероятностью 75%. А перемножая эти вероятности или комбинируя их с другими признаками (как формулах Байеса) напр "положение слова в предложении" или совокупность этого слова с другими рядом мы можем поднять эту вероятносять для трех-сигмовой зоны 97%. К примеру. Вот это Fuzzy Logic брат. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 18:30 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaэто не часть технического проекта. Можно сказать задачка из сборника. Есть текст и с ним необходимо провести некоторые операции. Например, выяснить число слов, посчитать существительные, сколько раз употребляется Я или Ты и тому подобные. а в этом сбрнике точно не пользуется какая-нибудь програмная библиотека? Вполне может существовать некий програмный модуль Х, который выделяет кол-во существительньх одной командой (не обязательно правильное количество, конечно), и о котором здесь никто не знает? а так, вот например Список наиболее употребляемых существительных русского языка (14842 слова) т.е. сканировать не обязательно ;) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 22:29 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
maytonВот это Fuzzy Logic брат... а в конце концов может оказаться, что в любом относительно большом (скажем, более полстранички) тексте, на русском языке, процент существительных - константа. И определяя общее кол-во слов, мы сразу узнаем кол-во существительных. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.03.2014, 14:14 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Хм... Стеммер в действии. За основу взял Java-library http://snowball.tartarus.org/download.php. Если посмотреть содержимое библиотеки то можно увидеть что "Снежный Ком" поддерживает не только киррилицу но и порядка 15 европейских языков. В данном примере я ограничил действие стеммера диапазоном символов 0x0400..0x04FF. Успех обработки - лексемы ограниченные квадратными скобками. Оригинальный текст: Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. После обработки. Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.03.2014, 22:54 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
S.G., да я бы рада использовать. Более того даже знаю как, но по условиям задания использовать можно только язык программирования(который итак знают три калеки). Очень все печально в общем выходит... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 16:03 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
mayton...поднять эту вероятносять для трех-сигмовой зоны 97%... Я так и написал, докторская диссертация для филолога мат стат веростностного анализа ))) Мне в прикладной жизни обычно нужно 100% или, на худой конец, 99.9999% детерминированный результат (0,001 процент отнесем на случай выключили электричество, сервер полег). Самый первый мой разбор текстов - сопоставление справочников абонентов по адресам из двух баз биллинга начислений за услуги для крупных пром. предприятий )))) в 90-х годах суммы миллиардами исчислялись. Боюсь пару лярдов туда, пару сюда - на трех-сигмовую зону не свалишь ))) Следующая задача была для полиграфии. Там тоже. Эротические фантазии в стили +/- километр ответственный редактор не приветствовал. В книжке Выше, Ваш покорный слуга идет под графой - верстка, его жена - автор указателей. ))) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 16:35 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
maytonПосле обработки. ...[Так] [говор] [в] [июл] 1805 [год] [известн] [Анна] [Павловн] [Шерер], [фрейлин] [и] [приближен] [императриц].... А где здесь задача автора? Определить существительные. Видим более-менее почищенный от окончаний текст. К исходной задаче никакого отношения не имеет. Мало того, может мне одному только кажется, что по обработанному тексту "определить существительные" даже и человек уже с трудом сможет ))). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 16:41 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaда я бы рада использовать. Более того даже знаю как, но по условиям задания использовать можно только язык программирования(который итак знают три калеки). Очень все печально в общем выходит... Все таки, что за задание такое странное? Откуда и для чего? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 16:48 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid Kudryavtsev, олимпиадное задание не для реального проекта, я думаю, а на проверку склада ума. Хотя тоже не совсем понятно какого-такого ума ну раз уж не я одна им задалась, то вот похожая темка http://www.sql.ru/forum/1081754/poisk-sushhestvitelnogo ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 16:52 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid KudryavtsevmaytonПосле обработки. ...[Так] [говор] [в] [июл] 1805 [год] [известн] [Анна] [Павловн] [Шерер], [фрейлин] [и] [приближен] [императриц].... А где здесь задача автора? Определить существительные. Видим более-менее почищенный от окончаний текст. К исходной задаче никакого отношения не имеет. Мало того, может мне одному только кажется, что по обработанному тексту "определить существительные" даже и человек уже с трудом сможет ))). Да нет здесь никаких существительных. Я выше писал что это может быть натолкнёт автора на какие-то мысли. Анализ суффиксов и окончаний. В целом даже snowball содержит зашитые справочники прямо в код. Что считать справочником а что нет - вопрос философский. Но решать эту задачу в вакууме - без знания об особенностях словообразования для custom языка - невозможно IMHO. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 17:06 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
всем спасибо за ответы и участие! Организаторы таки решили, что не удастся решить без библиотек и разрешили вызывать всё, что ни попадя ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 17:13 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Ну с учетом слов Cache, База Данных, то загруженный справочник существительных самое то. Я бы грузил справочник в именительном падеже (+род), потом добавлял вероятные варианты слова для различных падежей + множительное число в этих падежах. Получившийся мусоро-справочник с большей долей вероятности покроет все возможные формы употребления существительного. Дальше, каким образом в синтаксисе конкретной СУБД наиболее элегантно распарсить по словам и сравнить слова со справочником. IMHO. Значительно более база-данных решение, чем вызов какого-то кода и/или внешних exe. В принципе, задача не сильно тривиальная. В том числе с точки зрения структуры БД. IMHO ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 17:26 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid Kudryavtsev, ну вот. Раскрыли все мои карты можно сказать :) у меня уже готов и парсер и подсчет слов и выделение, так что пойду немножко менее времязатратным способом, но суть оставлю такую же... спасибо! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 17:30 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Хм... интересно. В библиотеке Lucene нет универсального стеммера. По состоянию на текущий момент для Lucene 4.7.0 Код: javascript 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. Я вот неспроста взял Войну и Мир старого бородатого толстяка. Дело в том что начиная с первых глав (в соответствии с модой 18-19 ст.) главные герои-дворяне говорят на русском, немецком и французском. Для анализа каждого документа Lucene предлагает создавать экземпляр Analyzer изначально 1 заданного языка (RussianAnalyzer, FrenchAnalyzer). Меня это не устраивает т.к. текст "Войны" - смешанный и содержит в себе много языков и как следствие анализатор русского языка не совсем корректно обходится с словами французскими. Он их оставляет как есть. Или правильнее сказать делает простое разделение по SPACERS. Вобщем есть идея создать MultiLanguageAnalyzer. По сути - объединить существующие. Трудность - для каждого отдельного слова состоящего из Latin трудно дать 100% классификацию языка. Слова надо анализировать в контексте предложения. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.03.2014, 15:35 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
mayton...Трудность - для каждого отдельного слова состоящего из Latin трудно дать 100% классификацию языка. Слова надо анализировать в контексте предложения. А не "из Latin" трудностей нет? Панимаешь дарагой, на кириллице не только в Рассии пишут ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.03.2014, 17:47 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=38581321&tid=1341439]: |
0ms |
get settings: |
10ms |
get forum list: |
9ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
148ms |
get topic data: |
6ms |
get forum data: |
2ms |
get page messages: |
34ms |
get tp. blocked users: |
1ms |
| others: | 225ms |
| total: | 439ms |

| 0 / 0 |
