Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей) / MySQL

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / MySQL [игнор отключен] [закрыт для гостей] / Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

32 сообщений из 32, показаны все 2 страниц

все

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386298

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

Доброго дня!
Стоит задача выбрать общие значения в 2-х таблицах. С SQL запросом вроде-бы все понятно. Но вот время выборки выглядит пугающе... Я понимаю что 60 млн записей не обрабатываются за 5 минут, но я не знаю как ускорить выборку. Использовал индексирование ключевых полей, но безрезультатно.

запрос такого типа

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.

SELECT
  DISTINCT
    kod,
    fio,
    dr,
    town 
FROM people p
   JOIN adr a ON a.kod=p.kod ;

...

Рейтинг:

0 / 0

04.09.2013, 11:22:17

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386309

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

Опишите задачу более полно.
Из каких таблиц выбираются поля? Желательно это явно указать в запросе.
Зачем в запросе DISTINCT?
Покажите DDL таблиц и имеющихся индексов и план запроса.

...

Рейтинг:

0 / 0

04.09.2013, 11:27:12

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386362

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

ruff3d З.Ы. выборка проводилась 2 дня, на 3-й я психанул))
не психуй. Давай таблицы. и индексы.
А для начала выкинь дистинкт - уже на порядок шустрее будет.

...

Рейтинг:

0 / 0

04.09.2013, 11:56:38

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386382

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

Чувствую погрешность в длине полей (255)))) Но не думаю что проблема только в этом.

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.

CREATE TABLE people (
  kod varchar(255) DEFAULT NULL,
  fio(255) DEFAULT NULL,
  dr date DEFAULT NULL,
  town varchar(255) DEFAULT NULL,
  INDEX IDX_people (kod (10), fio (20), dr)
)
ENGINE = INNODB
AVG_ROW_LENGTH = 350
CHARACTER SET utf8
COLLATE utf8_general_ci;


CREATE TABLE adr ( 
  kod varchar(255) DEFAULT NULL,
  ul varchar(255) DEFAULT NULL,
  d varchar(255) DEFAULT NULL,
  kv varchar(255) DEFAULT NULL,
  INDEX IDX_adr (kod (10), ul (20), d (3), kv(3))
)
ENGINE = INNODB
AVG_ROW_LENGTH = 197
CHARACTER SET utf8
COLLATE utf8_general_ci;

...

Рейтинг:

0 / 0

04.09.2013, 12:04:23

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386465

tanglir

Участник

Сообщения: 30 379

Рейтинг: 0 / 0

ruff3dзапрос такого типа

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.

SELECT
  DISTINCT
    kod,
    fio,
    dr,
    town 
FROM people p
   JOIN adr a ON a.kod=p.kod ;

И что, мускль не плюнул в вас ошибкой 'ambiguous column name "kod"'?
Ну и explain запроса неплохо было бы увидеть.

...

Рейтинг:

0 / 0

04.09.2013, 12:36:17

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386467

tanglir

Участник

Сообщения: 30 379

Рейтинг: 0 / 0

ruff3d

Код: sql

1.
2.
3.

  ul varchar(255) DEFAULT NULL,
  d varchar(255) DEFAULT NULL,
  kv varchar(255) DEFAULT NULL,

а вот это (равно как и town varchar(255)) вообще адъ (и израиль)
курить "нормальная форма", срочно!

...

Рейтинг:

0 / 0

04.09.2013, 12:37:42

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386494

tanglir

Участник

Сообщения: 30 379

Рейтинг: 0 / 0

Ну и ещё - поскольку у вас индексируются только первые 10 символов, то выполнению запроса этот индекс, наверное, слабо поможет - мусклю всё равно придётся (каждый раз, когда код хотя бы с одной стороны длиннее 10 символов, а может, и вообще всегда) лезть в базу, чтобы сравнить полные значения полей.

...

Рейтинг:

0 / 0

04.09.2013, 12:52:12

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386712

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

базу просто переконвертировал с другой бд, поэтому ничего не менял.... вот с длиной поля ток погарячился.
индексы как только не ставил и на 20 символов (индексировало 2 дня).
есть еще какие-нибудь замечания?

...

Рейтинг:

0 / 0

04.09.2013, 14:47:08

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386726

ScareCrow

Участник

Откуда: Белый город

Сообщения: 16 205

Рейтинг: 0 / 0

привести размеры полей в к длине данных.
перейти на CHAR(N) вместо VARCHAR(N)

...

Рейтинг:

0 / 0

04.09.2013, 14:53:38

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386745

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

ScareCrow,
думаете ускорит?

...

Рейтинг:

0 / 0

04.09.2013, 15:08:22

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386747

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

ScareCrow,
думаете ускорит?

...

Рейтинг:

0 / 0

04.09.2013, 15:09:55

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386783

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

и что по поводу дефолтных значений NULL ??? это нормально или без них все-таки быстрее?))

...

Рейтинг:

0 / 0

04.09.2013, 15:25:13

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38386809

transpose

Участник

Сообщения: 162

Рейтинг: 0 / 0

еще можно varchar(255) c помощью hash преобразовать в числа. Так как различных значений у вас не больше 60 миллионов 10-значные числа это прекрасно покроют. тогда и индексирование будет иметь смысл.

...

Рейтинг:

0 / 0

04.09.2013, 15:38:20

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387115

javajdbc

Участник

Откуда: Montreal

Сообщения: 18 207

Рейтинг: 0 / 0

ruff3dДоброго дня!
Стоит задача выбрать общие значения в 2-х таблицах. С SQL запросом вроде-бы все понятно. Но вот время выборки выглядит пугающе... Я понимаю что 60 млн записей не обрабатываются за 5 минут, но я не знаю как ускорить выборку. Использовал индексирование ключевых полей, но безрезультатно.

запрос такого типа

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.

SELECT
  DISTINCT
    kod,
    fio,
    dr,
    town 
FROM people p
   JOIN adr a ON a.kod=p.kod ;

таблица people - 60 000 000 записей, adr - 20 000

индексировал kod, fio, dr (people) и adr.kod

Подскажите, что может быть решением данной проблемы.
Тип таблиц - InnoDB
Сервер Xeon (4 ядра) RAM 4GB (настройки mysql оптимизировал для InnoDB)

З.Ы. выборка проводилась 2 дня, на 3-й я психанул))

1. как и зачем вы будете использовать результат?

2. приводите точный запрос, а не ту подделку которыю вы показали.

3. Вас просили показать EXPLAIN.

...

Рейтинг:

0 / 0

04.09.2013, 18:29:08

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387137

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

04.09.2013, 18:51:38

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387157

javajdbc

Участник

Откуда: Montreal

Сообщения: 18 207

Рейтинг: 0 / 0

ruff3dExplain

id | select_type | table | possible_keys | key | key_len | ref | rows | Extra
1 SIMPLE adr ALL IDX_kulik (null) (null) (null) 518
1 SIMPLE people ref IDX_people IDX_people 33 adr.kod 1 Using where

ну експлейн -- вроде нормальный, ничего военного.
60М...20М записей -- ну наверно просто много и долго.
Когда промежуточные результаты не поменшаются в памят'
они вываливают на диск и все становится в 100 раз скучнее.

Самое простое -- нарежте задачу на мелкие кусочки,
скажем в процедуре по 10К людей или по 10К адресов
(лучше по основному ключу от...до......от...до...от...до).

Опятьже, как вы будете использовать эти данные?
может их в промежуточную таблицу загнать или
сразу агрегировать для отчетов...или что?

...

Рейтинг:

0 / 0

04.09.2013, 19:09:13

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387215

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

javajdbcruff3dExplain

id | select_type | table | possible_keys | key | key_len | ref | rows | Extra
1 SIMPLE adr ALL IDX_adr (null) (null) (null) 518
1 SIMPLE people ref IDX_people IDX_people 33 adr.kod 1 Using where

ну експлейн -- вроде нормальный, ничего военного.
60М...20М записей -- ну наверно просто много и долго.
Когда промежуточные результаты не поменшаются в памят'
они вываливают на диск и все становится в 100 раз скучнее.

Самое простое -- нарежте задачу на мелкие кусочки,
скажем в процедуре по 10К людей или по 10К адресов
(лучше по основному ключу от...до......от...до...от...до).

Опятьже, как вы будете использовать эти данные?
может их в промежуточную таблицу загнать или
сразу агрегировать для отчетов...или что?

Дело в том что там и так должно получится не более 20K строк.
Выбранные данные я экспортирую в xls файл.
может есть еще какие-нить размышления?

...

Рейтинг:

0 / 0

04.09.2013, 20:39:26

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387223

tanglir

Участник

Сообщения: 30 379

Рейтинг: 0 / 0

ruff3dДело в том что там и так должно получится не более 20K строк.т.е. к каждому адресу привязано не более одного человека?

...

Рейтинг:

0 / 0

04.09.2013, 21:05:49

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387261

javajdbc

Участник

Откуда: Montreal

Сообщения: 18 207

Рейтинг: 0 / 0

ruff3d,

я бы сделал так:

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.

SELECT
    kod,
    fio,
    dr,
    town 
FROM
(select * from address limit 1 ) a
   STRAIGHT JOIN people  p ON a.kod=p.kod ;

...

Рейтинг:

0 / 0

04.09.2013, 22:45:34

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387425

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

tanglirruff3dДело в том что там и так должно получится не более 20K строк.т.е. к каждому адресу привязано не более одного человека?

там не нормальная форма, просто нашел таблицу с адресами.

...

Рейтинг:

0 / 0

05.09.2013, 09:20:41

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387430

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

javajdbcruff3d,

я бы сделал так:

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.

SELECT
    kod,
    fio,
    dr,
    town 
FROM
(select * from address limit 1 ) a
   STRAIGHT JOIN people  p ON a.kod=p.kod ;

потом 100, потом 5К... просто посмотреть скорости.
кроме того, как вы грузите в ексел?
сразу из какгото ГУЯ?
может проще будет создать промежуточную таблицу?
а потом выгружать?

при поиске статического значения типа "p.kod = '1234567890'" ищет секунд 10.
пользуюсь dbForge Studio for MySQL, создает промежуточную таблицу при выборке.

...

Рейтинг:

0 / 0

05.09.2013, 09:27:10

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387461

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

ruff3djavajdbcruff3d,

я бы сделал так:

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.

SELECT
    kod,
    fio,
    dr,
    town 
FROM
(select * from address limit 1 ) a
   STRAIGHT JOIN people  p ON a.kod=p.kod ;

...

Рейтинг:

0 / 0

05.09.2013, 09:56:44

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387504

tanglir

Участник

Сообщения: 30 379

Рейтинг: 0 / 0

ruff3dпри поиске статического значения типа "p.kod = '1234567890'" ищет секунд 10.у вас индексы в память не лезут, других объяснений я не вижу...
PS. задачка: умножить 10 секунд на 60 миллионов записей и прикинуть время выполнения запроса :)

...

Рейтинг:

0 / 0

05.09.2013, 10:25:42

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387521

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

ruff3dпри поиске статического значения типа "p.kod = '1234567890'" ищет секунд 10.
пользуюсь dbForge Studio for MySQL, создает промежуточную таблицу при выборке.
код преобразуй в integer

...

Рейтинг:

0 / 0

05.09.2013, 10:38:29

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387542

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

tanglirruff3dпри поиске статического значения типа "p.kod = '1234567890'" ищет секунд 10.у вас индексы в память не лезут, других объяснений я не вижу...Ну почему же? Может '1234567890' настолько неуникальное значение, что за остатком строки очень много раз приходится лазить в таблицу.

...

Рейтинг:

0 / 0

05.09.2013, 10:49:40

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387544

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

Ivan Durakruff3dпри поиске статического значения типа "p.kod = '1234567890'" ищет секунд 10.
пользуюсь dbForge Studio for MySQL, создает промежуточную таблицу при выборке.
код преобразуй в integerПоле VARCHAR-ное, чем тут поможет integer?

...

Рейтинг:

0 / 0

05.09.2013, 10:50:09

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387581

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

кто работал с такими объемными таблицами? Как ускорить выборку (пресечение) данных таблиц?

...

Рейтинг:

0 / 0

05.09.2013, 11:16:27

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387674

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

ruff3dКак ускорить выборку (пресечение) данных таблиц?Для начала я бы разобрался с данными. Зачем такие длинные поля? Почему они типа VARCHAR? Нельзя ли их преобразовать в INT?
Затем попробовал бы построить индекс без префиксов.

...

Рейтинг:

0 / 0

05.09.2013, 12:10:27

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387685

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

miksoftIvan Durakпропущено...

код преобразуй в integerПоле VARCHAR-ное, чем тут поможет integer?
вот ПОЛЕ и преобразуй. Видно же что там целочисленные данные.

...

Рейтинг:

0 / 0

05.09.2013, 12:17:24

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387746

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

Ivan Durakmiksoftпропущено...
Поле VARCHAR-ное, чем тут поможет integer?
вот ПОЛЕ и преобразуй. Видно же что там целочисленные данные.Увы, видно только топикстартеру. Может, там не все значения целочисленные...

...

Рейтинг:

0 / 0

05.09.2013, 12:43:06

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38387825

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

ruff3d,

Возникает вопрос сразу в необходимости такого запроса. Зачем нужен список всех людей с их городами?
Зачем нужен distinct в запросе?
Он будет очень дорог при таких объемах, а kod и fio, похоже, уникальные ключи, и если связь с адресом не 1 к N, а N к 1, то distinct не нужен.

А по остальному, если убрать distinct, то для него нужны только индекс по полям связки, kod.

Идеально было бы использовать тут merge join, но mySQL его кажется ещё не поддерживает.

...

Рейтинг:

0 / 0

05.09.2013, 13:23:09

| Ответить | Цитировать | Написать

Выборка пересечения между 2-х таблиц (в одной 60 млн записей, во второй 20 тыс. записей)

#38388220

ruff3d

Участник

Сообщения: 49

Рейтинг: 0 / 0

MasterZivruff3d,

Возникает вопрос сразу в необходимости такого запроса. Зачем нужен список всех людей с их городами?
Зачем нужен distinct в запросе?
Он будет очень дорог при таких объемах, а kod и fio, похоже, уникальные ключи, и если связь с адресом не 1 к N, а N к 1, то distinct не нужен.

А по остальному, если убрать distinct, то для него нужны только индекс по полям связки, kod.

Идеально было бы использовать тут merge join, но mySQL его кажется ещё не поддерживает.

мне нужно вывести только тех людей, чьи кода есть в базе adr, в которой дублируются строки (kod, adress).

...

Рейтинг:

0 / 0

05.09.2013, 17:14:56

| Ответить | Цитировать | Написать

32 сообщений из 32, показаны все 2 страниц

все

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?all=1&fid=47&tid=1836108]:	0ms
get settings:	8ms
get forum list:	18ms
check forum access:	3ms
check topic access:	3ms
track hit:	24ms
get topic data:	10ms
get forum data:	2ms
get page messages:	82ms
get tp. blocked users:	1ms
others:	194ms

total:	345ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы