|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
назовем любую основу получаемую при "нормализации" фтс--пж заданной словоформы "прямой" основой (по данному словарю/конфе). назовем смежной (на заданном словаре к ФТС--пж) с данной словоформой словоформу , имеющую ("порождающую при "нормализации") хотя бы одну общую основу. Код: sql 1. 2. 3. 4.
назовем смежной (к заданной словоформе) основой любую основу, которая может быть получена (("при нормализации")) из любой словоформы, смежной с данной (хотя бы по одной общей основе, в т.ч. отличной от определяемой "смежной"). задача: найти способ получения (в пж) всех смежных* (через любую смежную словоформу) основ по заданной словоформе. т.е. для "мыть" это будет и "мыло" для ханспельного пж--словаря -- смежно через "мыла". * -- по заданному словарю//конфигурации. кто--нть решал ? подходы знает ? или знает, почему так не надо делать ? (какого размера кластеры смежности можно огрести ?) ... |
|||
:
Нравится:
Не нравится:
|
|||
23.11.2017, 21:33 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
qwwq, какую задачу вы решаете? Может оказаться, что инструмент прямо перед глазами, но вы его не видите. Если вы ограничиваетесь конкретным хунспелловским словарем, может, вам хватит хунспелловских же wordforms, annalyze и компании. Насчет терминов: названное вами основой правильно именуется леммой (грубо говоря, словарная форма); соответственно, «нормализация» — это лемматизация; основа — словоформа без окончания (напр., для ‘мыла’ и ‘мыло’ [и сущ., и гл.] — мыл ). ... |
|||
:
Нравится:
Не нравится:
|
|||
24.11.2017, 02:53 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ы2, ok о терминах вы просветили. задача простая -- навалиться на небольшой текст словарем в 40тысячбратьев 100--200 тысяч "кейвордов" типа "пустое множество" "хорошо темперированный клавир" и т.п., состоящее на 146% из стоп слов и 12--х токенов и найти вхождения ключей с учетом их изменчивости. см. тут. 20977885 вхождение я худо бедно ищу, но затратно. хочу предподготовить текст , так, чтобы по возможности снизить кол-во проверяемого. пока фильтрую обгрызая словоформы до сноубольских основ, что чревато потерями на словоформах с псевдоглагольными окончаниями -- детали/деталь -- дета/детал. хочу делать предподготовку ханспеллом (или еще каким словарным). а это плохо тем, что основа потенциально удваяицца. т.ч. надо текст заранее превратить в гостеприимное мн-во всех смежностей (или их хешей) -- чтобы обрезать проверяемое мн--во по входимости (жестко) а не по наличию пересечений (что не даст требуемой избирательности). кактотак. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.11.2017, 08:07 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ы2<...> Может оказаться, что инструмент прямо перед глазами, но вы его не видите. Если вы ограничиваетесь конкретным хунспелловским словарем, может, вам хватит хунспелловских же wordforms, annalyze и компании. к сожалению, я сижу в субд. все что мне реально доступно находится или тут: перечень доступного инструментария . //локально могу приподнятся до 9.6. но там условно--полезного -- разве что unnest или, на крайняк, тут, но уже без аусвайсов : Код: sql 1. 2. 3. 4. 5. 6. 7.
то, что лежит тут , таким образом, интересно исключительно для ознакомления. думается. т.е. "перед глазами" -- это немного совсем не о том. нет ? вернее даже -- совсем не о чём. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.11.2017, 12:42 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
qwwq, есть MyStem (Яндексовский морфологический анализатор), к нему — pymystem3 , который, как пишут, умеет быстро лемматизировать. Если pymystem получится затолкать в функцию на plpython, вы сможете усидеть внутри базы: сделаете tsvector по лемматизированным текстам и, соотвественно, будете искать в них лемматизированные же ключевые слова с конфигурацией simple. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.11.2017, 02:51 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ы2, снкс. ссылки посмотрю. возможно даже для чего--то подойдет. я переосмыслил задачу. мне достаточно иметь не "все смежные леммы, по заданному словарю"(на всем множестве словоформ словаря), а "все смежные на относительно стабильном множестве словоформ кейвордов, по заданному словарю". т.е. лепим 2 ф-ии -- 1-ю -- иммутабную, -- для индексирования кейвордов -- без добора лемм смежными. и 2--ю стейбл -- для предподготовки текста (индексация там и раньше не светила) -- с добором лемм по табличке смежности лемм рубрикатора. и говорим потом что--то вроде: "WHERE key_lemms <@ body_lemms(text)" // т.е. придется завести ещё один чемодан без ручки -- табличку смежных лемм. у меня их нашлось аж около 700 штук (самиз лемм) на все 150000 кейвордов. одна или 2 тренарные группы или даже тетранарные. кажется должно сносно по времени работать. и всё -- изнутри субд. ЗЫ вот ещё интересное , думается. надо обдумать, что даёт такое "читерство" с т.з. предподготовки. (более дешовые вспомогательные структуры/индексы) ... |
|||
:
Нравится:
Не нравится:
|
|||
25.11.2017, 10:38 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
<offtop> пара замечаний "за всё хорошее, против всего плохого" 1. с тех пор ,как есть визбли, визибля, короче мап -- можно было бы и поаккуратнее с речеками ф-х индексов. накопить уже посчитанных и видимых, если цена большая. 1.1. интересно, как указать стоимость ф--ии в зависимотси от массивности аргумента. как--то хотел , не нашел. чтобы не торопилось битмапиться.(раз не умеет значения при этом закапливать) 2. как оказалось -- мнение ,что "внутре у ней неонка" в очередной раз было более чем сильным допущением. а именно -- моделируя, залез я , какабычна, в сильно не свойственные задаче диапазоны [тексты по мб, "кейвордов" под лям -- настрогал текст на би-лексемы, за отсутствием под рукой "размеченных экспертами" ] -- и увидел, что поиск по Код: plaintext
чтобы не быть голословным скриптики к 2: в лоб: Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17.
Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22.
в обход: Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36.
пичаль, ... |
|||
:
Нравится:
Не нравится:
|
|||
25.11.2017, 18:08 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
qwwq, и тут наврал. поправ очка: в обход Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.
Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52.
... |
|||
:
Нравится:
Не нравится:
|
|||
25.11.2017, 18:15 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
qwwq, как я понимаю, вы впали в автоматическую категоризацию/классификацию текстов, но не понимаю, почему это нужно делать сугубо внутри базы. Вне базы есть, к примеру, сильно популярный NLTK (а в нем — nltk.classify ). Поскольку он на питоне, может получиться обернуть его в plpython, хотя мне думается, что разумнее все-таки брать из базы тексты, классифицировать снаружи и грузить результаты обратно. Возможно, так вы и проблему с «неонкой в нутре» обойдете. P.S. А «читерство» в словаре по коваленковской морфологии — весьма относительное. Вам внутри грамматическая теория, согласно которой нет причастий и деепричастий как отдельных частей речи: они считаются формами глагола, соответственно, и леммой для них будет инфинитив. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.11.2017, 17:11 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ы2, за ссылки спасибо. посмотрю. не так, чтобы впал, но пытаюсь собрать что--то ,что можно померить, и что мало зависит от трактовок, в отличь от натягивания сов на произвольные глобусы, с любыми допусками и посадками. (думаю, можно что--то такое доказать, -- "они растягиваются"(тм) , типа) вот число вхождений слова (или конгломерата словес установленного образца) -- померить можно. а понять куда именно оно входит (в текст осмысленный , или в херомантию ) -- пока и жаднекс с гугелем не умеют, кажется. даже профессия такая есть. нет ? делать это (мерить вхождения) можно хоть на коленке. результат надо ж куда--то складывать -- туда, где и использовать. в базенку. да и тексты у меня масенькие -- 10 -- 20 полей составляют оцениваемый "текст". кило на 20, думаю, -- в лучшем случае. это модельный набор текстов дома -- по МБ. я пульпу фб2 накачал да набил в табличку. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.11.2017, 18:12 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ы2qwwq, есть MyStem (Яндексовский морфологический анализатор), к нему — pymystem3 , который, как пишут, умеет быстро лемматизировать. Если pymystem получится затолкать в функцию на plpython, вы сможете усидеть внутри базы: сделаете tsvector по лемматизированным текстам и, соотвественно, будете искать в них лемматизированные же ключевые слова с конфигурацией simple. добрался: Код: python 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118.
"рукожопы-с"(тм) не можете снять нормально -- не снимайте а так -- лучше не надо. //это я было попытался было поделие "томата--парсер" от яндыкса приспособить, все недоумевал, чож оно такое квадратное, обрубленное и со всех сторон туповатое -- ан у него внутри уже неонка мутная. обидно однако. /* хотел поднятый объект в глобальный словарик плпитония помещать -- не шмогла добицца устойчивого ответа в построчном режиме. даже без погружения в пл субдшный. broken pipe лезет, даже если не коммуникейтить, а побайтно читать. сам, ессно, рукожоп. но теперь , раз виноград зелен -- то и не так за себя обидно */ морал: надо из каких--то других кубиков "вечность" собирать. жаднекс для этого слишком жадный в отдаче и слишком вольный в подходах кто-нть протасова или сходную идеологию к синтакс парсу прикручивал ? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 11:54 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
qwwqЫ2qwwq, есть MyStem (Яндексовский морфологический анализатор), к нему — pymystem3 , который, как пишут, умеет быстро лемматизировать. Если pymystem получится затолкать в функцию на plpython, вы сможете усидеть внутри базы: сделаете tsvector по лемматизированным текстам и, соотвественно, будете искать в них лемматизированные же ключевые слова с конфигурацией simple. добрался: Код: python 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118.
"рукожопы-с"(тм) не можете снять нормально -- не снимайте а так -- лучше не надо. //это я было попытался было поделие "томата--парсер" от яндыкса приспособить, все недоумевал, чож оно такое квадратное, обрубленное и со всех сторон туповатое -- ан у него внутри уже неонка мутная. обидно однако. /* хотел поднятый объект в глобальный словарик плпитония помещать -- не шмогла добицца устойчивого ответа в построчном режиме. даже без погружения в пл субдшный. broken pipe лезет, даже если не коммуникейтить, а побайтно читать. сам, ессно, рукожоп. но теперь , раз виноград зелен -- то и не так за себя обидно */ морал: надо из каких--то других кубиков "вечность" собирать. жаднекс для этого слишком жадный в отдаче и слишком вольный в подходах кто-нть протасова или сходную идеологию к синтакс парсу прикручивал ? Вариант: мама куском кусочного мыла мыла стекло. со стекла стекла пенистая пена. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 15:07 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ролг ХупинВариант: мама куском кусочного мыла мыла стекло. со стекла стекла пенистая пена. С точки зрения проблемы, это тот же самый вариант: синтаксическая омонимия форм ‘стекла’ стекло[N]-GEN.SG и ‘стекла’ стечь[V]-PST.3SG.F. В одиночку морфологический анализатор ее снять не может и не должен, но, по-хорошему, должен был выдать оба варианта разбора. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 15:39 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
qwwq, если уж вы решили забраться в синтаксис, можете попробовать Link Grammar Parser . Сам я его не трогал, поэтому ничего конкретного сказать не могу. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 15:47 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ы2qwwq, если уж вы решили забраться в синтаксис, можете попробовать Link Grammar Parser . Сам я его не трогал, поэтому ничего конкретного сказать не могу. многозначный аналайз опционально возможен Код: python 1.
-- "был неправ, вспылил"(ц) многозначный лексайз с массивами лекксем надо писать самому. собственно томита--парсер потенциально неплох (не без странностей), но мой пайтон оставляет желать. покручу ещё. (хочу а-ля пайплайн непрерывный -- в субд в сеансе). на гитхабе есть поделия а-ля томита 14--х гг. на основе пайморфа2 -- надо покрутить. за ссылку сенкс. 2РХ "косой косой косой косой косил косой" -- где-то видел недавно. это уже почти как "про дворника и контекст". ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 16:48 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ы2qwwq, если уж вы решили забраться в синтаксис, можете попробовать Link Grammar Parser . Сам я его не трогал, поэтому ничего конкретного сказать не могу. в чем его суть - этого Link Grammar Parser? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 16:49 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ролг Хупин, судя по https://yury-anikin.livejournal.com/10496.html в бесплатности (в отличие от посконного аналога). как я понимаю, на пальцах (и со своими тараканами) -- есть набор схем бинарных и далее связей членов предложения (и их агрегатов), с относительно четкой иерархией (схем) -- вдоль которой (иерархии) можно разбирать сложные предложения. синтакс--парсеры должны предлагать средства для описания граматик оных схем. как-то так, вероятно. (если схемы не зашиты напрочь) добавить еще семантические схемы (можно ли и как вероятно прилагать вкус к солнцу) -- поверх/в параллель -- и будет почти ИИ. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 17:08 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ролг Хупинв чем его суть - этого Link Grammar Parser? Это синтаксический анализатор, использующий формализм грамматики связей в отличие от, напр. грамматики [непосредственных] составляющих или грамматики зависимостей. В принципе, эти грамматики пересчитываются друг в друга, но часто бывает, что для конкретного языка одна из них оказывается удобнее. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 19:29 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
qwwqкак я понимаю, на пальцах (и со своими тараканами) -- есть набор схем бинарных и далее связей членов предложения (и их агрегатов), с относительно четкой иерархией (схем) -- вдоль которой (иерархии) можно разбирать сложные предложения. синтакс--парсеры должны предлагать средства для описания граматик оных схем. как-то так, вероятно. (если схемы не зашиты напрочь) добавить еще семантические схемы (можно ли и как вероятно прилагать вкус к солнцу) -- поверх/в параллель -- и будет почти ИИ. В общих чертах, так и есть, но ИИ не получится. Для него еще, как минимум, нужно машинное обучение. См. ABBYY Compreno (про него писали, что оно может понимать текст). ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 19:35 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ы2Ролг Хупинв чем его суть - этого Link Grammar Parser? Это синтаксический анализатор, использующий формализм грамматики связей в отличие от, напр. грамматики [непосредственных] составляющих или грамматики зависимостей. В принципе, эти грамматики пересчитываются друг в друга, но часто бывает, что для конкретного языка одна из них оказывается удобнее. Странно, что большие базы не включают подобные обработчики в стандартные поставки: PostgreSQL, SQL Server Даже при желании не ясно, как это прикручивать к базам этих серверов ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 19:47 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
256k, полагаю, потому, что обработка синтаксиса в общем случае для полнотекстового поиска не требуется. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2017, 23:11 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ы2256k, полагаю, потому, что обработка синтаксиса в общем случае для полнотекстового поиска не требуется. скорее -- 80% сливок снимаются обычным токенайзером + нормализацией. (+ инвертированный индекс по результатам) далее чем глубже тем сложнее, и отвечающих задачам выразительных средств (там возникают потребности в декларативном описании желаемого. причем желаемые связываются в иерархическую структуру -- ее бы тоже описывать тут же, а не складывать в пачки файликов с инклудами/импортами) пока как--то даже не наблюдается. например, вся мелкая кухня с наборами граммем и т.п. меток не устоялась. у всех -- своя. а как выглядят/должны выглядеть грамматики для связей я пока даже не видел толком. в рсубд, как правило, разбор больших текстов не нужен. (большим стационарным текстам и вне субд хорошо -- им меняться не нужно) максимум, думаю, -- нужен разбор согласований коротких искомых подфраз ("ключевых" или же "фактов"), дополнительно к сущ-му. это выльется в вычленение характеристик, которые и так иногда выдираются (в ханспельном дикте есть метки), но не предоставляются, и, возможно, не хранение (всех) их, а сохранение (в индексах) синтаксических неких соотношений (объект/субъект/действие/и т.п.), возникших в рез-те разбора с применением морфы. например -- тех же "фактов" жаднекс-томата-кетчупа. и все это должно быть лёгким. попутно всё это пересекается ключевыми словарями -- ограниченными множествами слов/цепочек/регулярок/т.п., на котором выделяются/ищутся "факты". появится одна удачная реализация у кого-то -- все подтянутся. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.12.2017, 13:18 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
qwwqдалее чем глубже тем сложнее, и отвечающих задачам выразительных средств (там возникают потребности в декларативном описании желаемого. причем желаемые связываются в иерархическую структуру -- ее бы тоже описывать тут же, а не складывать в пачки файликов с инклудами/импортами) пока как--то даже не наблюдается. Вы бы описали желаемое (результат) понятным языком. qwwqнапример, вся мелкая кухня с наборами граммем и т.п. меток не устоялась. у всех -- своя. Тут несколько не всегда связанных между собой собак зарыты. С набором граммем в лингвистике сейчас особой неопределенности нет, могут поспорить о чем-то экзотическом типа миративности (грубо говоря, существует ли грамматическое выражение степени удивления говорящего по поводу произносимого), но базовый набор стабилен. Что касается грамматических помет и глосс, то хотя сейчас почти все делают по Лейпцигским правилам глоссирования, Крофту или Леманну, мелких вариаций все равно много (под конкретный язык, теорию или вкусы автора), но человек разберет :) Соответственно, все это перетекает в академические проекты анализаторов и проч. А дальше вступают в дело инженеры и прочие практики, у которых другие задачи и подходы (в качестве иллюстрации можно на Ютубе посмотреть лекцию Клышинского про написание морфологии). И в печальном итоге оказывается, часто проще на большом корпусе обучить нейронную сеть, чем разбираться с множеством теорий на каждом уровне описания естественного языка. qwwqмаксимум, думаю, -- нужен разбор согласований коротких искомых подфраз ("ключевых" или же "фактов"), дополнительно к сущ-му. это выльется в вычленение характеристик, которые и так иногда выдираются (в ханспельном дикте есть метки), но не предоставляются, и, возможно, не хранение (всех) их, а сохранение (в индексах) синтаксических неких соотношений (объект/субъект/действие/и т.п.), возникших в рез-те разбора с применением морфы. например -- тех же "фактов" жаднекс-томата-кетчупа. и все это должно быть лёгким. попутно всё это пересекается ключевыми словарями -- ограниченными множествами слов/цепочек/регулярок/т.п., на котором выделяются/ищутся "факты". Если искомое по своей природе структурировано, то можно обойтись вообще без разбора синтаксиса естественного языка, т.к. формальное описание структуры и будет синтаксисом для конкретного типа случаев (как я понял, томита так и делает, и морфология ей нужна только, чтобы соотнести ‘поганку’ с Грибами как семантическим классом). Для «неких соотношений (объект/субъект/действие/и т.п.)», не имеющих заранее известной структуры, будет нужен довольно приличный синтаксический анализатор и выход на семантические роли. И легким это все будет, если работать с языком типа вьетнамского, где практически грамматика выражается лексически либо порядком слов. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.12.2017, 17:25 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
Ы2Если искомое по своей природе структурировано, то можно обойтись вообще без разбора синтаксиса естественного языка <...> Для «неких соотношений (объект/субъект/действие/и т.п.)», не имеющих заранее известной структуры, будет нужен довольно приличный синтаксический анализатор и выход на семантические роли.минимально искомое -- поиск "ключевых слов" (в основном -- "мультивордов" -- в терминах томаты-яндекса) , входящие в сплошной текст, в т.ч. с возможностью (следующий уровень задачи) "размазывания" (инжекцию промежуточных токенов меж токенами "мультиворда") или (гораздо дальше программы--минимум) слияния под слиянием тут имеется в виду что-то типа : ключи : "квадратное уравнение" | "кубическое уравнение" -- в тексте "квадратных и кубических уравнений в целых..." -- обнаружить эти 2 ключа как 2 факта. синтакс разбор нужен для проверки согласования (как минимум) "частей мультивордов", особенно если идти в сторону преодоления перестановочности (вообще говоря во фразе могут попасться квадратные сепульки и уравнения сепулярности, и надо понять , что формально уравнения ну никак не квадратные (по крайней мере что не об этом речь) Ы2Вы бы описали желаемое (результат) понятным языком.минизадача -- выше. задача в общем виде: допустим есть объекты разного вида. характеризуемые в т.ч. текстами, с ними связанными. надо решать задачи по подбору соответствий объектов одного вида -- другому. евпочя тут -- готов услышать "более простые/правильные подходы" а вообще говоря я на досуге покрутил томиту в пайтоне "по образцам": -- даже добился асинхронной правда работы (взяв за основу https://github.com/vas3k/poor-python-yandex-tomita-parser ) в построчном режиме. (запрос -- ответ, не кладя загруженного парсера) =========================== более удобным (синхронным) образом можно опрашивать вот этот проектик -- https://github.com/vas3k/python-glr-parser , правда с грамматиками и словарями в нем все довольно кисло -- собираются программно в пайтоне. мультивордов в словарях нет -- можно набрать как грамматики из конкретных лексем с метками согласования. (например вторым экземпляром парсера нарезаем файл "ключевых мультивордов" на "ворды", и програмно формируем из них строки грамматики вида Код: python 1. 2. 3. 4.
слияние грамматик и т.п. удобства, предоставляемые томитой яндекса -- все на улице. и судя по всему оно лажает(с согласованиями) от перестановки альтернатив /разбиения на нетерминалы т.е. Код: python 1. 2. 3. 4. 5.
-- дает результат отличный от предыдущего (надо лезть в исходник, недолез пока) зато, например, погружаемо в пж--плпайтон как единожды (на запрос или сессию) загружаемый парсер. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2018, 12:03 |
|
хочу странного (получение смежных основ словоформы)
|
|||
---|---|---|---|
#18+
qwwq, извлечение MVE тема вполне горячая и простых тиражируемых решений, похоже, пока нет. Если интересно, можете посмотреть , как бьется передовая мысль (внутри в поиске спросить про ”multi-word exrression”). ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2018, 18:12 |
|
|
start [/forum/topic.php?fid=53&msg=39577472&tid=1995961]: |
0ms |
get settings: |
10ms |
get forum list: |
11ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
43ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
53ms |
get tp. blocked users: |
1ms |
others: | 299ms |
total: | 436ms |
0 / 0 |