|
|
|
Вопрос по группировке
|
|||
|---|---|---|---|
|
#18+
Нужно сгруппировать 10000 сайтов по одинаковым шаблонам. Имеем для каждого сайта набор файлов шаблона, что решил сделать: 1) Сравниваем все файлы всех сайтов по совпадению Hash(в моем случае md5). Выделяем те файлы которые имеют более 10 совпадений из разных доменов. Тут получился такой запрос: Код: sql 1. 2. 3. 4. 5. 6. 7. список доменов;хеш;кол-во совпадений Т.е. такой то файл, с таким то хешем встречается столько то раз на таких то доменах. Дальше как-то нужно сгруппировать сайты у которых общих совпадений файлов более 10. В итоге нужно получить группы сайтов у которых скорее всего одинаковый шаблон(скажем так, если 10 одинаковых файлов присутствуют на сайтах, то скорее всего шаблон идентичен, или очень к этому приближен). Т.е. есть 3 домена. На одном 100 файлов, на втором 80, на третьем 40 У первого и третьего совпало 15 файлов, т.е. они идентичны, считаем, что это один шаблон. А на втором совпало только 3 файла - выкидываем. Структура такблицы сейчас выглядит так: Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Вообще не представляю даже с какого конца к этому подходить. Очень прошу помощи у толковых людей! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2018, 14:42 |
|
||
|
Вопрос по группировке
|
|||
|---|---|---|---|
|
#18+
araman, не удивительно, что вы не можете "родить" решение на SQL. Вы ведь даже на словах так объяснили, что совершенно непонятно, что именно нужно... Попробуйте сформулировать задачу ещё раз. А еще лучше - приведите тестовый набор данных и тот результата, что по-вашему должен на них получиться. Но в целом, создается впечатление, что задача на реляционное деление... Только у вас делитель пока - неопределен. Кроме того, как бьть с такой ситуацией: Есть три сайта, по 20 файлов на каждом. Первый и второй сайт пересекаются по файлам с 1-го по 10-й, второй и третий сайты пересекаются файлами с 11-го по 20-й. Первый и третий сайт, получается, не пересекаются вообще, от слова "совсем". Что в итоге пойдет в результирующую выборку? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.08.2018, 04:36 |
|
||
|
Вопрос по группировке
|
|||
|---|---|---|---|
|
#18+
Щукина Анна спасибо за ответ! Попытаюсь сформулировать задачу на более простом языке: "Нужно найти сайты, в которых есть совпадения 10 и более файлов(по хешу md5, имена файлов разумеется могут быть разными). Не обязательно как они пересекаются. С 1-10 или с 11-20, просто если есть 10+ файлов у 100 сайтов, нужно и вывести эти 100 сайтов. Вывести сайты, которые содержат кол-во совпадений файлов от 10+" Щукина Анна А еще лучше - приведите тестовый набор данных и тот результата, что по-вашему должен на них получиться. Ну я же вроде приводил пример в первом сообщении: авторТ.е. есть 3 домена. На одном 100 файлов, на втором 80, на третьем 40 У первого и третьего совпало 15 файлов, т.е. они идентичны, считаем, что это один шаблон. А на втором совпало только 3 файла - выкидываем. Спасибо! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.08.2018, 08:31 |
|
||
|
Вопрос по группировке
|
|||
|---|---|---|---|
|
#18+
araman, Вы не ответили на вопрос, что возвращать в описанном мною варианте расклада данных? авторЕсть три сайта, по 20 файлов на каждом. Первый и второй сайт пересекаются по файлам с 1-го по 10-й, второй и третий сайты пересекаются файлами с 11-го по 20-й. Первый и третий сайт, получается, не пересекаются вообще, от слова "совсем". Что в итоге пойдет в результирующую выборку? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.08.2018, 08:40 |
|
||
|
|

start [/forum/topic.php?fid=47&fpage=49&tid=1829678]: |
0ms |
get settings: |
7ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
31ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
42ms |
get tp. blocked users: |
2ms |
| others: | 10ms |
| total: | 127ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...