Оптимизация запроса для алгоритма шинглов / MySQL

ReSQL.ru

2.0.61

Полная версия Контакт Правила FAQ Помощь

Гость

Войти | Профиль | Очистить

Нов. | Гор. | Избр.

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Действия ...

Доб. в избранное
Игнор. тему
Прикреп. тему
Пометить прочит. / непрочит.
Фильтр:
Сообщения автора темы
Сообщение содержит вложения
Сообщение содержит картинки
Сообщение содержит видеоклипы
Сообщение содержит аудиоклипы
Сообщение содержит картинки или видео 18+

Форумы / MySQL [игнор отключен] [закрыт для гостей] / Оптимизация запроса для алгоритма шинглов / 9 сообщений из 9, страница 1 из 1

30.05.2014, 07:38:25

#38656600

М Евгений

Гость

Оптимизация запроса для алгоритма шинглов

Всем привет!

Написал свою реализацию алгоритма шинглов для сравнения текстов из файлов. Файлы читаются, разбиваются и загружаются в базу. Затем скрип периодически запускается и проверяет совпадения между файлами, с помощью выборки:

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.

SELECT s1.id, s1.article, s1.file, count(s1.hash) AS count
                   FROM {shingles} s1, {shingles} s2, {files} f1, {files} f2
                 WHERE s1.hash = s2.hash 
                     AND s1.file != {$newfile->id}
                     AND s2.file = {$newfile->id}
                     AND f1.id = s1.file
                     AND f2.id = s2.file
                     AND f1.timecreated < f2.timecreated
             GROUP BY s1.file

(кавычки заменяются на префикс библиотекой БД)

Сперва делается выборка новых файлов, затем они по очереди подставляются в запрос.
Оч долго выполняется... Подскажите, пожалуйста, как можно оптимизировать.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.05.2014, 08:53:37

#38656630

Akina

Участник

Откуда: Зеленоград, Москва, Россия
Сообщения: 20 644
Рейтинг: 0 / 0

Оптимизация запроса для алгоритма шинглов

М Евгенийкак можно оптимизировать.Индексы правильные построить.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.05.2014, 11:00:07

#38656760

miksoft

Участник

Сообщения: 36 746
Рейтинг: 0 / 0

Оптимизация запроса для алгоритма шинглов

М Евгений

Код: plsql

FROM {shingles} s1, {shingles} s2, {files} f1, {files} f2

А у вас точно MySQL ?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.05.2014, 12:19:47

#38656886

М Евгений

Гость

Оптимизация запроса для алгоритма шинглов

miksoft,
М Евгений (кавычки заменяются на префикс библиотекой БД)

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.05.2014, 12:22:06

#38656891

М Евгений

Гость

Оптимизация запроса для алгоритма шинглов

AkinaМ Евгенийкак можно оптимизировать.Индексы правильные построить.
Можно детальнее? Это ускорит запрос?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.05.2014, 13:40:23

#38656989

ScareCrow

Участник

Откуда: Белый город
Сообщения: 16 205
Рейтинг: 0 / 0

Оптимизация запроса для алгоритма шинглов

группировка не по всем полям.

запрос сильно похож на Cross JOIN

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.05.2014, 13:46:53

#38657004

tanglir

Участник

Сообщения: 30 379
Рейтинг: 0 / 0

Оптимизация запроса для алгоритма шинглов

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

SELECT s1.id, s1.article, s1.file, count(s1.hash) AS count
FROM {shingles} s1
JOIN {shingles} s2 ON s1.hash = s2.hash 
JOIN {files} f1 ON f1.id = s1.file
JOIN {files} f2 ON f2.id = s2.file
WHERE 
 s1.file != {$newfile->id}
 AND s2.file = {$newfile->id}
 AND f1.timecreated < f2.timecreated
GROUP BY s1.file

индексы на с.хэш, с.файл, ф.ид, и, возможно, ф.таймкриэйтед
ну и про группировку выше уже сказали

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.05.2014, 15:02:19

#38657123

alex564657498765453

Участник

Сообщения: 1 942
Рейтинг: 0 / 0

Оптимизация запроса для алгоритма шинглов

я так понимаю, запрос надо сделать, чтобы мускл правильно это делал

подозреваю что у нас задача, для заданого айди, найти по этим хешам, нету ли более раннего файла на него похожего.

я к тому что выборка
select * from shingles where file = {$newfile->id}
это очень маленькая часть от общего обьёма.

так что по идее, лучше, джоинить не таблицу шинглов(одну из двух) а именно эту выборку

итого получим
(выборка) джоин файлы??? зачем, джоин выборку этой самой нужной строки для нового файла

итого
(выборка из шинглов для данного файла) джоин (выборка из файлов для данного файла)

и тут уже пошли джоины таблиц файлы и шинглы

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.05.2014, 21:11:50

#38657495

М Евгений

Гость

Оптимизация запроса для алгоритма шинглов

Спасибо всем кто отозвался.

tanglir

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

SELECT s1.id, s1.article, s1.file, count(s1.hash) AS count
FROM {shingles} s1
JOIN {shingles} s2 ON s1.hash = s2.hash 
JOIN {files} f1 ON f1.id = s1.file
JOIN {files} f2 ON f2.id = s2.file
WHERE 
 s1.file != {$newfile->id}
 AND s2.file = {$newfile->id}
 AND f1.timecreated < f2.timecreated
GROUP BY s1.file

индексы на с.хэш, с.файл, ф.ид, и, возможно, ф.таймкриэйтед
ну и про группировку выше уже сказали

Ваш этот вариант работает чуток побыстрее, вроде как, но разница очень небольшая. Хотелось бы еще...

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=47&tablet=1&tid=1834741]:	0ms
get settings:	4ms
get forum list:	9ms
check forum access:	2ms
check topic access:	2ms
track hit:	29ms
get topic data:	7ms
get forum data:	2ms
get page messages:	29ms
get tp. blocked users:	1ms
others:	201ms

total:	286ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы