|
|
|
Объединение в группы по максимальному количеству пересечений значений
|
|||
|---|---|---|---|
|
#18+
Есть список из N поисковых фраз. У каждой фразы есть массив из ТОП-10 url сайтов ( Топ поисковой выдачи). Некоторые url-ы у разных фраз могут совпадать. Задан минимальный порог совпадения, например 2 url-а, для объединения фраз в группы Цель - разбить фразы на группы, группа формируется из фраз с максимальным количеством пересечений url-ов. авторфраза1 (url 1,url 2,url 3,url 4,url 5,url 6,url 7,url 8,url 9,url 10) фраза2 (url 11,url 22,url 3,url 4,url 5,url 16,url 17,url 18,url 19,url 12) фраза3 (url 2,url 23,url 30,url 4,url 5,url 16,url 17,url 28,url 39,url 32) ....... Подскажите , как оптимально можно это делать? Есть какие-то способы обхода списка фраз? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.05.2013, 14:33 |
|
||
|
Объединение в группы по максимальному количеству пересечений значений
|
|||
|---|---|---|---|
|
#18+
fowl86Подскажите , как оптимально можно это делать? Да в общем-то тривиально: join с группировкой, фильтрация минимально необходимых совпадений в having, сортировка по релевантности - order by count desc. Гораздо интереснее вопрос определения групп: что делать если фраза1 совпадает с фразой2 по пяти урлам, и фраза2 совпадает с фразой3 тоже по пяти урлам, но у фразы1 и фразы3 нет ни одного общего урла. Объединять эту троицу в группу? Объединять в две группы? Какую с какой? Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.05.2013, 15:35 |
|
||
|
|

start [/forum/topic.php?fid=32&fpage=38&tid=1541255]: |
0ms |
get settings: |
4ms |
get forum list: |
9ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
25ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
23ms |
get tp. blocked users: |
1ms |
| others: | 200ms |
| total: | 275ms |

| 0 / 0 |
