|
Кто реализовывал Exploratory Search?
|
|||
---|---|---|---|
#18+
В PostgreSQL. Имеется в виду тематическое моделирование https://ru.wikipedia.org/wiki/Тематическое_моделирование и вот здесь яндексоиды пишут про "Разведочный" поиск https://habrahabr.ru/company/yandex/blog/313340/ ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2018, 12:51 |
|
Кто реализовывал Exploratory Search?
|
|||
---|---|---|---|
#18+
256kВ PostgreSQL. Имеется в виду тематическое моделирование https://ru.wikipedia.org/wiki/Тематическое_моделирование и вот здесь яндексоиды пишут про "Разведочный" поиск https://habrahabr.ru/company/yandex/blog/313340/ а в каком отношение к ПЖ ? я делал только частичные чисто технические подзадачи в пж: парсить (токенайзить) можно токенайзером пж. лемматировать токен встроенной ф-ей , по тому или иному словарю совпадения с ключевыми мультивордами по сноуболу -- чисто на регекспах по ханспелу -- на пересечении массивов-токенов (медленнее), с порядком, с совпадением хоть чего-то /на токен ну и т.п. понавертеть своих ф--й, по ним и индексировать (лучше -- с материализацией) я обхожусь обычным тф-идф в той или иной интерпретации (смотрю на некую вытяжку из объекта как на поисковый запрос , а на какую-либо (вытяжку из) коллекцию/рубрикатор/иное -- как на набор искомых документов). одним запросом. а всякие "кластеризации" -- это из разновидности натягивания сов на глобусы. -- "они растягиваются". для пж можно пайтоновские брать. (в пайтоне их есть) тут пока больше искусство , чем строгая арифметика, имхо. но задача маячит. хотя если считать по отдельному док-ту много, а док-ты неизменны -- то вылезать надо из субд наружу. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2018, 14:21 |
|
Кто реализовывал Exploratory Search?
|
|||
---|---|---|---|
#18+
qwwq256kВ PostgreSQL. Имеется в виду тематическое моделирование https://ru.wikipedia.org/wiki/Тематическое_моделирование и вот здесь яндексоиды пишут про "Разведочный" поиск https://habrahabr.ru/company/yandex/blog/313340/ а в каком отношение к ПЖ ? я делал только частичные чисто технические подзадачи в пж: парсить (токенайзить) можно токенайзером пж. лемматировать токен встроенной ф-ей , по тому или иному словарю совпадения с ключевыми мультивордами по сноуболу -- чисто на регекспах по ханспелу -- на пересечении массивов-токенов (медленнее), с порядком, с совпадением хоть чего-то /на токен ну и т.п. понавертеть своих ф--й, по ним и индексировать (лучше -- с материализацией) я обхожусь обычным тф-идф в той или иной интерпретации (смотрю на некую вытяжку из объекта как на поисковый запрос , а на какую-либо (вытяжку из) коллекцию/рубрикатор/иное -- как на набор искомых документов). одним запросом. а всякие "кластеризации" -- это из разновидности натягивания сов на глобусы. -- "они растягиваются". для пж можно пайтоновские брать. (в пайтоне их есть) тут пока больше искусство , чем строгая арифметика, имхо. но задача маячит. хотя если считать по отдельному док-ту много, а док-ты неизменны -- то вылезать надо из субд наружу. В том смысле, что средствами базы реализовать в базе, чтобы минимум внешних примочек. Например, самого полнотекстовго поиска мало, а надо еще и тематизацию и т.д. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2018, 14:59 |
|
Кто реализовывал Exploratory Search?
|
|||
---|---|---|---|
#18+
256k, можно на R что-то сделать для обработки/классификации документов и в хранимки это поместить (на pl/R). не знаю правда, есть ли в этом смысл. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2018, 17:46 |
|
Кто реализовывал Exploratory Search?
|
|||
---|---|---|---|
#18+
Alexius, можно и пайтон прикрутить https://stackoverflow.com/questions/6486738/clustering-using-latent-dirichlet-allocation-algo-in-gensim вот только зачем . можно решать такие задачи, когда тематика так и останется скрытым параметром -- неявной абстракцией модели (атомом демосфена), и интерпретировать непонятные многомерные хреновины не потребуется. а вход и выход -- помапить объекты А на объекты Б. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2018, 18:10 |
|
|
start [/forum/topic.php?fid=53&msg=39581061&tid=1996011]: |
0ms |
get settings: |
9ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
185ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
47ms |
get tp. blocked users: |
1ms |
others: | 48ms |
total: | 324ms |
0 / 0 |