Оптимизация запроса для алгоритма шинглов / MySQL

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / MySQL [игнор отключен] [закрыт для гостей] / Оптимизация запроса для алгоритма шинглов

9 сообщений из 9, страница 1 из 1

Оптимизация запроса для алгоритма шинглов

#38656600

М Евгений

Гость

Всем привет!

Написал свою реализацию алгоритма шинглов для сравнения текстов из файлов. Файлы читаются, разбиваются и загружаются в базу. Затем скрип периодически запускается и проверяет совпадения между файлами, с помощью выборки:

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.

SELECT s1.id, s1.article, s1.file, count(s1.hash) AS count
                   FROM {shingles} s1, {shingles} s2, {files} f1, {files} f2
                 WHERE s1.hash = s2.hash 
                     AND s1.file != {$newfile->id}
                     AND s2.file = {$newfile->id}
                     AND f1.id = s1.file
                     AND f2.id = s2.file
                     AND f1.timecreated < f2.timecreated
             GROUP BY s1.file

(кавычки заменяются на префикс библиотекой БД)

Сперва делается выборка новых файлов, затем они по очереди подставляются в запрос.
Оч долго выполняется... Подскажите, пожалуйста, как можно оптимизировать.

...

Рейтинг:

0 / 0

30.05.2014, 07:38:25

| Ответить | Цитировать | Написать

Оптимизация запроса для алгоритма шинглов

#38656630

Akina

Участник

Откуда: Зеленоград, Москва, Россия

Сообщения: 20 644

Рейтинг: 0 / 0

М Евгенийкак можно оптимизировать.Индексы правильные построить.

...

Рейтинг:

0 / 0

30.05.2014, 08:53:37

| Ответить | Цитировать | Написать

Оптимизация запроса для алгоритма шинглов

#38656760

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

М Евгений

Код: plsql

FROM {shingles} s1, {shingles} s2, {files} f1, {files} f2

А у вас точно MySQL ?

...

Рейтинг:

0 / 0

30.05.2014, 11:00:07

| Ответить | Цитировать | Написать

Оптимизация запроса для алгоритма шинглов

#38656886

М Евгений

Гость

miksoft,
М Евгений (кавычки заменяются на префикс библиотекой БД)

...

Рейтинг:

0 / 0

30.05.2014, 12:19:47

| Ответить | Цитировать | Написать

Оптимизация запроса для алгоритма шинглов

#38656891

М Евгений

Гость

AkinaМ Евгенийкак можно оптимизировать.Индексы правильные построить.
Можно детальнее? Это ускорит запрос?

...

Рейтинг:

0 / 0

30.05.2014, 12:22:06

| Ответить | Цитировать | Написать

Оптимизация запроса для алгоритма шинглов

#38656989

ScareCrow

Участник

Откуда: Белый город

Сообщения: 16 205

Рейтинг: 0 / 0

группировка не по всем полям.

запрос сильно похож на Cross JOIN

...

Рейтинг:

0 / 0

30.05.2014, 13:40:23

| Ответить | Цитировать | Написать

Оптимизация запроса для алгоритма шинглов

#38657004

tanglir

Участник

Сообщения: 30 379

Рейтинг: 0 / 0

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

SELECT s1.id, s1.article, s1.file, count(s1.hash) AS count
FROM {shingles} s1
JOIN {shingles} s2 ON s1.hash = s2.hash 
JOIN {files} f1 ON f1.id = s1.file
JOIN {files} f2 ON f2.id = s2.file
WHERE 
 s1.file != {$newfile->id}
 AND s2.file = {$newfile->id}
 AND f1.timecreated < f2.timecreated
GROUP BY s1.file

индексы на с.хэш, с.файл, ф.ид, и, возможно, ф.таймкриэйтед
ну и про группировку выше уже сказали

...

Рейтинг:

0 / 0

30.05.2014, 13:46:53

| Ответить | Цитировать | Написать

Оптимизация запроса для алгоритма шинглов

#38657123

alex564657498765453

Участник

Сообщения: 1 942

Рейтинг: 0 / 0

я так понимаю, запрос надо сделать, чтобы мускл правильно это делал

подозреваю что у нас задача, для заданого айди, найти по этим хешам, нету ли более раннего файла на него похожего.

я к тому что выборка
select * from shingles where file = {$newfile->id}
это очень маленькая часть от общего обьёма.

так что по идее, лучше, джоинить не таблицу шинглов(одну из двух) а именно эту выборку

итого получим
(выборка) джоин файлы??? зачем, джоин выборку этой самой нужной строки для нового файла

итого
(выборка из шинглов для данного файла) джоин (выборка из файлов для данного файла)

и тут уже пошли джоины таблиц файлы и шинглы

...

Рейтинг:

0 / 0

30.05.2014, 15:02:19

| Ответить | Цитировать | Написать

Оптимизация запроса для алгоритма шинглов

#38657495

М Евгений

Гость

Спасибо всем кто отозвался.

tanglir

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

SELECT s1.id, s1.article, s1.file, count(s1.hash) AS count
FROM {shingles} s1
JOIN {shingles} s2 ON s1.hash = s2.hash 
JOIN {files} f1 ON f1.id = s1.file
JOIN {files} f2 ON f2.id = s2.file
WHERE 
 s1.file != {$newfile->id}
 AND s2.file = {$newfile->id}
 AND f1.timecreated < f2.timecreated
GROUP BY s1.file

индексы на с.хэш, с.файл, ф.ид, и, возможно, ф.таймкриэйтед
ну и про группировку выше уже сказали

Ваш этот вариант работает чуток побыстрее, вроде как, но разница очень небольшая. Хотелось бы еще...

...

Рейтинг:

0 / 0

30.05.2014, 21:11:50

| Ответить | Цитировать | Написать

9 сообщений из 9, страница 1 из 1

Форумы / MySQL [игнор отключен] [закрыт для гостей] / Оптимизация запроса для алгоритма шинглов

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=47&msg=38656630&tid=1834741]:	0ms
get settings:	6ms
get forum list:	11ms
check forum access:	2ms
check topic access:	2ms
track hit:	55ms
get topic data:	13ms
get forum data:	2ms
get page messages:	59ms
get tp. blocked users:	1ms
others:	193ms

total:	344ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы