|
|
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Вечер добрый. Кто-нибудь знает как программно определить признак существительного? То есть из текста надо выделить все слова существительные. Я в голове-то такое правило не могу составить, не то что в коде. Знатоки, прошу помощи :) прошу не куски готового кода, а скорее алгоритм... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 16:07 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
взять словарь отсканировать распознать FineReader'ом ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 16:08 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid Kudryavtsev, вы придумали словарь существительных? может тогда отсканируете сами и мне пришлете? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 16:14 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
В любом нормальном словаре слова идут с примечанием в каком качестве оно может использоваться. Просто сушествительных все равно недостаточно, даже для простых задач AFAIK как минимум нужно знать какого оно рода (муж, сред, женск) Отсканировать и распознать - без проблем. Деньги готовь ))). Утром деньги, через месяц словарь в электронном варианте. Мало денег - словарь только существительных матерного языка, много - и слов много и не все матерные ))) Можно у Oracle купить. Вроде раньше называлось Oracle Context Cartridge (могу ошибаться). Словарь для русского языка продавался отдельно. Сколько стоит и правила использования по лицензии - можно спросить у продавцов Oracle. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 16:32 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Для примера, посмотрите хотя бы на викесловарь . Все указано: ВикисловарьСуществительное, неодушевлённое, мужской род, 2-е склонение (тип склонения 5b по классификации А. Зализняка); также предикатив, наречие. Корень .... суффикс: -ец. ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 16:36 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid Kudryavtsev, Леонид вы сюда пришли количество сообщений вашего профиля накручивать? Ни слова по теме, зато сколько букв. Использовать словари не разрешено. Есть просто текст. Узнать количество существительных. И в скобочках после каждого слова увы род не написан знаете ли. Для выполнения задачи мне необходим лишь нормальный алгоритм хотя бы на словах для определения существительное ли слово. Считайте что я на паскале пишу. Какие словари? Как тут быть?! Вот например все знают что слон это существительное. А почему? Окончание слова нулевое и все? А например "крой". Конец слова "-ой" казалось бы. Но ведь есть "худой" и там снова "-ой". Только одно существительное, а другое прилагательные. Алгоритм, как в статье Определение части речи слишком примитивен.... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 17:06 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Одно и то же по написанию слово в зависимости от контекста может быть и существительным, и другой частью речи. Так что без анализа всей фразы задача в принципе нерешаемая. Да и с анализом не всегда... Косил косой косой косой косой Косой траву ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 17:37 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaнапример "крой". Конец слова "-ой" казалось бы. Но ведь есть "худой" и там снова "-ой". Только одно существительное, а другое прилагательные. Крой, Вася, бога нет! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 17:38 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Akina, спасибо, я понимаю. Так и выведу на экран "задача не решаемая" :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 17:41 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaСчитайте что я на паскале пишу. Какие словари? Как тут быть?! 1) Любой нормальный паскаль позволяет работать с БД, в которую можно сгрузить твои существительные. На худой конец - их же можно записать в файл, который потом можно загрузить в память для ускорения процесса. 2) Без анализа всего текста - не получится. 3) Над распознаванием глаголов/существительных и т.п. бьются не один год - это одна из ключевых проблем как машинного перевода, так и ИИ. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 19:12 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferaza, скачай словарь существительных. Вроде гуглятся такие вещи. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 19:33 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
... а потом определяй, существительное или нет, методом Монте-Карло... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 21:29 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaИспользовать словари не разрешено."Мама мыла оконное стекло" Удачи вам с алгоритмами без словарей... Да и со словарями удача понадобится. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 21:56 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
А теперь Горбатый! Я сказал – Горбатый ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2014, 23:28 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
mayton, Выше написано, что использовать словарь ЗАПРЕЩЕНО. Гуглятся. А то я не знаю, что такое гугл... Без комментариев. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2014, 10:01 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaКто-нибудь знает как программно определить признак существительного? luziferazaИспользовать словари не разрешено. Есть просто текст. Узнать количество существительных. Так какая же все-таки задача: узнать количество или выделить существительные? Выделить без словарей невозможно, а прикинуть примерное количество можно попробовать статистическими методами. Заранее вычислить среднюю долю существительных в тексте. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2014, 10:24 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaДля выполнения задачи мне необходим лишь нормальный алгоритм хотя бы на словах для определения существительное ли слово. Считайте что я на паскале пишу... На паскале не могу. Могу на Java. Пользуйтесь, я добрый: Код: java 1. 2. 3. 4. 5. 6. 7. luziferaza...А почему? Окончание слова нулевое и все?... RTFM Книжка 1 на выбор Книжка 2 на выбор ==== когда 10 лет назад понадобилось сделать разбор текста и составление именного указателей для книги - задачу успешно решил. Правда вопросы были немного другие, типа "О.-Р.де Монферан это имя человека, а Геракл и Дева Мария это кто такие?" а Вы про существительные, скучно ))) А на Ваш вопрос, я ответ находил самостоятельно, где-то на 50-80 страничке учебника русского языка 3-его класса для средней школы. Там табличка окончаний существительных в разных падежах была. Почему, сразу Вас и обрадовал, что даже одного списка слов Вам 100% будет не достаточно, как минимум нужно знать еще род существительного. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2014, 14:36 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Dima T, а, собственно, чем эти задачи отличаются по сути? Зная все существительные не трудно посчитать их количество. Leonid Kudryavtsev все юморим. Не совсем понятна ваша тонкая шуточка про окончание и книги на озоне. У Вас самого-то с морфологией как? P.S. ссылочки битые Есть только книга. Всё! Больше ничего нет. Никаких словарей, никаких указаний рода. Есть просто слова. Нужно узнать существительное или нет. Вот так на вскидку. Да или нет. Без искусственного интеллекта, способного склонять слова и, узнав окончание, делать выводы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2014, 14:58 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Верните Random от 1 до количества слов, имхо, при заданных условиях это лучшее решение ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2014, 15:01 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazamayton, Выше написано, что использовать словарь ЗАПРЕЩЕНО. Гуглятся. А то я не знаю, что такое гугл... Без комментариев. Я продолжаю настаивать на использовании словаря. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2014, 15:48 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaЕсть только книга. Всё! Больше ничего нет. Никаких словарей, никаких указаний рода. Есть просто слова. Нужно узнать существительное или нет. Вот так на вскидку. Да или нет. Без искусственного интеллекта, способного склонять слова и, узнав окончание, делать выводы.Уже пять раз повторили - на нет и суда нет. Слово "стекло" - глагол или существительное? А "мыло"? А существительные с окончательными прилагательных (мороженое, пироженое, рабочий...) куда денешь? luziferazaLeonid Kudryavtsev все юморим.Если ты будешь упорствовать в своем невежестве, кроме юмора увидишь разве что оскорбления. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2014, 23:09 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
rockclimber, а вы у нас первый на очереди? Упорствовать в том, что я не знаю как решить проблему? Ничего некультурного не было написано. Мною был задан вопрос и даны пояснения по заданию. Мне были даны в ответ куча советов, которые любой человек итак может получить,как выводы из своего же вопроса, погуглив. Если никому нечего сказать кроме громкого "ЮЗАЙ СЛОВАРЬ!" и перечисления одинаковых слов разных частей речи, то комментарии излишни. Не надо даже тратить свое время на мой пост и тыкать по кнопочкам, чтобы еще раз показать мне истину. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.03.2014, 10:06 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferaza, а кто тебе поставил такую задачу? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.03.2014, 13:44 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazarockclimber, а вы у нас первый на очереди? Упорствовать в том, что я не знаю как решить проблему? Ничего некультурного не было написано. Мною был задан вопрос и даны пояснения по заданию. Мне были даны в ответ куча советов, которые любой человек итак может получить,как выводы из своего же вопроса, погуглив. Если никому нечего сказать кроме громкого "ЮЗАЙ СЛОВАРЬ!" и перечисления одинаковых слов разных частей речи, то комментарии излишни. Не надо даже тратить свое время на мой пост и тыкать по кнопочкам, чтобы еще раз показать мне истину. Вам же советовали другой вариант (без словаря): берёте учебник русского языка и по правилам учитывает изменение окончаний.. Да это будет не 100% попадание, но для большого текста процент будет достаточно хороший ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.03.2014, 14:12 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
GwaВам же советовали другой вариант (без словаря): берёте учебник русского языка Я такого не советовал. GwaДа это будет не 100% попадание, но для большого текста процент будет достаточно хороший Не знаю, что значит "достаточно хороший". Но после прочтение учебника лично у меня пропало всякое желание пытаться сделать разбор без учета словаря. Даже наличие словаря слов, без знания рода (муж./жен./сред.) лично мне не помогало. Задача автора совершенно не понятно, зачем нужно выделять существительные. Подозревая, что это лишь часть какого-то практического проекта. В этом случае, просто выделить существительные не достаточно. Обычно (лично у меня), возникает желание привести их к единственному числу именительного падежа. IMHO Сделать это без знания рода существительного не возможно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.03.2014, 14:26 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Есть неиспользующие словари в явном виде алгоритмы стемминга наподобие Snowball http://snowball.tartarus.org/algorithms/russian/stemmer.html Но они решают другую задачу. Может это как-то поможет автору или натолкнёт его на мысли. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.03.2014, 14:56 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
mayton, а можно поподробнее? что это такое и какие задачи обычно решает? По ссылки сходил, но где это можно применить в мирных целях, не понял. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.03.2014, 15:08 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
В поисковых системах используется. Когда текст индексируется - все слова в нём проходят фазы обработки. Удаляются стоп-слова (междометия, союзы). Оставшиеся идут на обработку процессу стемминга. После этого они идут в текстовый индекс (могу ошибаться но так должны работать Sphinx, Lucene e.t.c.). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.03.2014, 15:15 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid Kudryavtsev, Задача абсолютно четкая и понятная. Необходимо их просто найти-выделить-узнать количество. mayton это не часть технического проекта. Можно сказать задачка из сборника. Есть текст и с ним необходимо провести некоторые операции. Например, выяснить число слов, посчитать существительные, сколько раз употребляется Я или Ты и тому подобные. Но дело в том, что если все остальные задания более-менее связаны друг с другом и реализовать их удалось, то к чему было задано это задание я понятия не имею. И уж как его корректно сделать тем более... Посчитаю по окончаниям. Пусть погрешность, да и ладно... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 15:33 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaПосчитаю по окончаниям. Пусть погрешность, да и ладно... Это нормально. Будет прогрешность. Пример с "Косил косой..." тебе приводили как лингвистический парадокс. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 15:41 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Только как выделить "окончание", мне крайне интересно. Без списка корней слов (словаря). На данной страницы фраза: "В поисковых системах используется..." поисковая - прилагательное система - существительное и то и другое заканчивается на "х" ))) Не претендую на знания русского языка. Но блин, задания не для программиста. а для "филолога - теоретика - мат стат вероятностного анализа" ))) по такому заданию. можно не только кандидатскую, но и докторскую диссертацию защитить. IMHO во-пе́р-вых - наречие передых - существительное (по версии викисловаря) Все таки random будет точнее ))) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 16:08 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaЗадача абсолютно четкая и понятная. Необходимо их просто найти-выделить-узнать количество.... абсолютно - Наречие Необходимо - Предикатив просто - Наречие, также предикатив, союз, частица; количество - существительное Все заканчивается на "о". абсолютно - Корень: -абсолют-; суффикс: -н; окончание: -о. просто - Корень: -прост-; суффикс: -о. количество - Корень: -колич-; суффикс: -еств; окончание: -о. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 16:13 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
по ссылки Snowball уверяют: на -но оканчиваются verb (глаголы) /и follow by "a"/ на -о оканчиваются noun (существительные) Можно посмотреть слова оканчивающиеся на -но. Существительных из них не мало: гальвано пиано фортепиано - сущ. рано сопрано - сущь гуано - сущь ... Все же, я за RANDOM ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 17:09 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid KudryavtsevВсе же, я за RANDOM Будет вам. Неконструктивно-же... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 17:34 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
maytonБудет вам. Неконструктивно-же... Дык в чем неконстрктивно? По буквам в конце слова, определить принадлежность к части речи можно только +/- километр А накапливать статистику использования окончаний слов в различном контексте - тянет на докторскую дисертацию для филолога. Ну и не надо путать алгоритмы пытающиеся "вычистить" текст для поиска и какой-то смысловой анализ (существительное/прилагательное). Пример с окончаниями по Вашей ссылки я привел. Так же как и слова из "абсолютно четкого и понятного" предложения самого автора. Вот Вы предложили ориентировать на окончания (не в лингвистическом значении слова), приведите пример ссылки, где было бы написано, с какой вероятностью окончание соотносится с той или иной частью речи. Я уже не говорю, про специфические тексты. Я уже не говорю, что собственно таблица окончаний + вероятность == словарь. С данной задачей практически сталкивался, разбор текста. Но мне нужен быть _практический_ результат, а не сделать бессмысленное задание. Практический результат без оператора или без словаря - получить не удалось. Видел опыт реализацию нечеткого поиска у одного из моих коллег в учетной системе. Я изначально относился скиптически. По итогам эксплуатации, пользователи, насколько я знаю, так же попросили отключить. Т.к. мусора от данного нечеткого поиска было больше, чем пользы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 17:53 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid KudryavtsevmaytonБудет вам. Неконструктивно-же... Дык в чем неконстрктивно? По буквам в конце слова, определить принадлежность к части речи можно только +/- километр Можно и так. Эта система выдаёт вероятностный ответ так-же как и Newral Networks, Fuzyy Logic e.t.c. Просто твой совет с random- предполагает что ты вообще ничего не знаешь, и говоришь что это 50% слово существительное и 50% нет. А я говорю что Если на 1000 слов заканчивающихся на "-но" мы нашли 750 существительных то я могу утверждать что наша система выдаёт вероятностный ответ. Я говорю - это слово существительное с вероятностью 75%. А перемножая эти вероятности или комбинируя их с другими признаками (как формулах Байеса) напр "положение слова в предложении" или совокупность этого слова с другими рядом мы можем поднять эту вероятносять для трех-сигмовой зоны 97%. К примеру. Вот это Fuzzy Logic брат. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 18:30 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaэто не часть технического проекта. Можно сказать задачка из сборника. Есть текст и с ним необходимо провести некоторые операции. Например, выяснить число слов, посчитать существительные, сколько раз употребляется Я или Ты и тому подобные. а в этом сбрнике точно не пользуется какая-нибудь програмная библиотека? Вполне может существовать некий програмный модуль Х, который выделяет кол-во существительньх одной командой (не обязательно правильное количество, конечно), и о котором здесь никто не знает? а так, вот например Список наиболее употребляемых существительных русского языка (14842 слова) т.е. сканировать не обязательно ;) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.03.2014, 22:29 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
maytonВот это Fuzzy Logic брат... а в конце концов может оказаться, что в любом относительно большом (скажем, более полстранички) тексте, на русском языке, процент существительных - константа. И определяя общее кол-во слов, мы сразу узнаем кол-во существительных. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.03.2014, 14:14 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Хм... Стеммер в действии. За основу взял Java-library http://snowball.tartarus.org/download.php. Если посмотреть содержимое библиотеки то можно увидеть что "Снежный Ком" поддерживает не только киррилицу но и порядка 15 европейских языков. В данном примере я ограничил действие стеммера диапазоном символов 0x0400..0x04FF. Успех обработки - лексемы ограниченные квадратными скобками. Оригинальный текст: Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. После обработки. Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.03.2014, 22:54 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
S.G., да я бы рада использовать. Более того даже знаю как, но по условиям задания использовать можно только язык программирования(который итак знают три калеки). Очень все печально в общем выходит... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 16:03 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
mayton...поднять эту вероятносять для трех-сигмовой зоны 97%... Я так и написал, докторская диссертация для филолога мат стат веростностного анализа ))) Мне в прикладной жизни обычно нужно 100% или, на худой конец, 99.9999% детерминированный результат (0,001 процент отнесем на случай выключили электричество, сервер полег). Самый первый мой разбор текстов - сопоставление справочников абонентов по адресам из двух баз биллинга начислений за услуги для крупных пром. предприятий )))) в 90-х годах суммы миллиардами исчислялись. Боюсь пару лярдов туда, пару сюда - на трех-сигмовую зону не свалишь ))) Следующая задача была для полиграфии. Там тоже. Эротические фантазии в стили +/- километр ответственный редактор не приветствовал. В книжке Выше, Ваш покорный слуга идет под графой - верстка, его жена - автор указателей. ))) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 16:35 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
maytonПосле обработки. ...[Так] [говор] [в] [июл] 1805 [год] [известн] [Анна] [Павловн] [Шерер], [фрейлин] [и] [приближен] [императриц].... А где здесь задача автора? Определить существительные. Видим более-менее почищенный от окончаний текст. К исходной задаче никакого отношения не имеет. Мало того, может мне одному только кажется, что по обработанному тексту "определить существительные" даже и человек уже с трудом сможет ))). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 16:41 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
luziferazaда я бы рада использовать. Более того даже знаю как, но по условиям задания использовать можно только язык программирования(который итак знают три калеки). Очень все печально в общем выходит... Все таки, что за задание такое странное? Откуда и для чего? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 16:48 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid Kudryavtsev, олимпиадное задание не для реального проекта, я думаю, а на проверку склада ума. Хотя тоже не совсем понятно какого-такого ума ну раз уж не я одна им задалась, то вот похожая темка http://www.sql.ru/forum/1081754/poisk-sushhestvitelnogo ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 16:52 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid KudryavtsevmaytonПосле обработки. ...[Так] [говор] [в] [июл] 1805 [год] [известн] [Анна] [Павловн] [Шерер], [фрейлин] [и] [приближен] [императриц].... А где здесь задача автора? Определить существительные. Видим более-менее почищенный от окончаний текст. К исходной задаче никакого отношения не имеет. Мало того, может мне одному только кажется, что по обработанному тексту "определить существительные" даже и человек уже с трудом сможет ))). Да нет здесь никаких существительных. Я выше писал что это может быть натолкнёт автора на какие-то мысли. Анализ суффиксов и окончаний. В целом даже snowball содержит зашитые справочники прямо в код. Что считать справочником а что нет - вопрос философский. Но решать эту задачу в вакууме - без знания об особенностях словообразования для custom языка - невозможно IMHO. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 17:06 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
всем спасибо за ответы и участие! Организаторы таки решили, что не удастся решить без библиотек и разрешили вызывать всё, что ни попадя ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 17:13 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Ну с учетом слов Cache, База Данных, то загруженный справочник существительных самое то. Я бы грузил справочник в именительном падеже (+род), потом добавлял вероятные варианты слова для различных падежей + множительное число в этих падежах. Получившийся мусоро-справочник с большей долей вероятности покроет все возможные формы употребления существительного. Дальше, каким образом в синтаксисе конкретной СУБД наиболее элегантно распарсить по словам и сравнить слова со справочником. IMHO. Значительно более база-данных решение, чем вызов какого-то кода и/или внешних exe. В принципе, задача не сильно тривиальная. В том числе с точки зрения структуры БД. IMHO ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 17:26 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Leonid Kudryavtsev, ну вот. Раскрыли все мои карты можно сказать :) у меня уже готов и парсер и подсчет слов и выделение, так что пойду немножко менее времязатратным способом, но суть оставлю такую же... спасибо! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.03.2014, 17:30 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
Хм... интересно. В библиотеке Lucene нет универсального стеммера. По состоянию на текущий момент для Lucene 4.7.0 Код: javascript 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. Я вот неспроста взял Войну и Мир старого бородатого толстяка. Дело в том что начиная с первых глав (в соответствии с модой 18-19 ст.) главные герои-дворяне говорят на русском, немецком и французском. Для анализа каждого документа Lucene предлагает создавать экземпляр Analyzer изначально 1 заданного языка (RussianAnalyzer, FrenchAnalyzer). Меня это не устраивает т.к. текст "Войны" - смешанный и содержит в себе много языков и как следствие анализатор русского языка не совсем корректно обходится с словами французскими. Он их оставляет как есть. Или правильнее сказать делает простое разделение по SPACERS. Вобщем есть идея создать MultiLanguageAnalyzer. По сути - объединить существующие. Трудность - для каждого отдельного слова состоящего из Latin трудно дать 100% классификацию языка. Слова надо анализировать в контексте предложения. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.03.2014, 15:35 |
|
||
|
работа с текстом
|
|||
|---|---|---|---|
|
#18+
mayton...Трудность - для каждого отдельного слова состоящего из Latin трудно дать 100% классификацию языка. Слова надо анализировать в контексте предложения. А не "из Latin" трудностей нет? Панимаешь дарагой, на кириллице не только в Рассии пишут ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.03.2014, 17:47 |
|
||
|
|

start [/forum/topic.php?all=1&fid=16&tid=1341439]: |
0ms |
get settings: |
13ms |
get forum list: |
20ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
168ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
97ms |
get tp. blocked users: |
2ms |
| others: | 237ms |
| total: | 557ms |

| 0 / 0 |
