Как отсортировать 1 миллиард записей? / MySQL

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / MySQL [игнор отключен] [закрыт для гостей] / Как отсортировать 1 миллиард записей?

25 сообщений из 336, страница 5 из 14

все

Как отсортировать 1 миллиард записей?

#40034517

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

ptr128

miltorg,

а если в лоб падает?

Код: sql

1.
2.
3.
4.

WITH MyScope AS (
  SELECT id, COUNT(1) OVER (PARTITION BY Dannye) AS Cnt
  FROM tabiz2010 )
SELECT * FROM MyScope WHERE Cnt>3

Спасибо. Вроде пока совсем быстро:

Код: plsql

1.
2.
3.
4.
5.

mysql> WITH MyScope AS (
    ->   SELECT id, COUNT(1) OVER (PARTITION BY Dannye) AS Cnt
    ->   FROM tabiz2010 )
    -> SELECT * FROM MyScope WHERE Cnt>3;
Empty set (4.12 sec)

...

Рейтинг:

0 / 0

09.01.2021, 23:33

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034527

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

Слушайте. А ведь вроде не имеет никакого смысла сортировать исходную строку если в ней не совпадают как минимум 10 цифр

Почему я раньше до этого не додумался?
Или нет?

...

Рейтинг:

0 / 0

10.01.2021, 00:39

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034529

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Мне кажется что если выкинуть эти глупые циклы и заменить их на нормальный поиск в глубину - то
можно просто учесть лексикографический порядок сортировки и получать на выходе сразу
сортированный набор.

Не?

...

Рейтинг:

0 / 0

10.01.2021, 00:48

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034530

Злой Бобр

Участник

Откуда: Украина, Кривой Рог

Сообщения: 2 025

Рейтинг: 0 / 0

miltorg,

Все решается с помощью мат анализа (я такое еще в школе на высшей математике лузал как семечки). Погуглите по слову комбинаторика (там много подобных задач с формулами для решения - выбирайте что вам ближе по задаче, я все посты в теме не читал). Единственное привести строки к одному виду (в вашем случае начинаться и заканчиваться строка должна подчеркиванием, либо другим разделителем). Но вам конечно виднее. )))

...

Рейтинг:

0 / 0

10.01.2021, 00:48

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034533

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.

5 7 8 15 22 23 27 34 37 39 40 41 43 44 50 55 57 58 62 70
3 5 9 12 15 16 19 20 23 25 29 30 34 37 43 48 55 58 59 61
2 3 5 12 15 21 23 24 26 28 36 37 38 39 50 53 55 59 66 68
2 3 5 7 8 11 14 16 19 25 35 43 50 51 55 60 61 66 67 70
2 8 11 12 14 17 18 20 21 28 36 43 50 53 55 56 59 62 64 66
2 5 10 11 15 16 18 19 27 29 30 32 33 35 42 43 45 62 63 65
5 6 7 8 16 21 27 30 39 46 49 50 51 53 54 58 62 64 68 70
1 2 3 7 9 11 12 13 15 17 20 24 26 28 34 45 48 49 61 66
7 8 12 13 14 21 23 24 27 28 30 38 40 49 50 52 53 54 63 68
1 3 5 7 9 10 14 21 23 27 31 34 45 46 47 48 51 52 64 65
1 5 6 7 9 11 14 17 29 30 33 36 37 39 42 43 48 50 64 65
2 9 11 12 13 17 18 23 25 27 33 38 40 44 45 46 47 52 64 66
1 5 6 11 14 16 17 20 22 23 25 26 31 41 44 47 56 59 64 70
3 5 9 19 24 25 26 27 28 33 34 40 45 50 53 55 59 63 64 66
3 6 8 11 13 19 23 25 28 32 33 34 37 41 50 54 56 57 59 65
2 3 5 7 15 23 28 29 32 37 38 46 49 50 52 53 59 60 61 62
1 5 7 9 11 16 18 20 22 25 26 35 45 46 47 51 56 67 68 70
11 15 16 22 25 28 29 32 34 35 42 43 47 49 52 53 54 57 62 63
8 9 15 17 26 30 31 35 37 38 41 42 44 50 52 58 60 64 66 69
4 6 8 15 16 17 18 24 26 33 34 35 36 37 42 44 50 54 65 69
5 7 8 15 22 23 27 34 37 39 40 41 43 44 50 55 57 58 62 70

нужно найти строки имеющие 10 совпадений цифр

...

Рейтинг:

0 / 0

10.01.2021, 01:32

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034544

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

miltorg,

for $e (@a, @b) {$inion{$e}++ && $isect{$e}++;}

...

Рейтинг:

0 / 0

10.01.2021, 02:57

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034548

Ares_ekb

Участник

Откуда: Екатеринбург

Сообщения: 645

Рейтинг: 0 / 0

miltorg

нужно найти строки имеющие 10 совпадений цифр

Тогда сортировка не поможет. Если должны совпадать не 10 наименьших или наибольших чисел, а любые.

...

Рейтинг:

0 / 0

10.01.2021, 06:50

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034549

Ares_ekb

Участник

Откуда: Екатеринбург

Сообщения: 645

Рейтинг: 0 / 0

По смыслу это что-то похожее на https://en.wikipedia.org/wiki/Cosine_similarity , которая часто используется в машинном обучении. У каждой записи есть вектор из 100 признаков. Можно эти данные представить как у ТС: если N-ый признак есть, то в строке присутствует число N.

Другой способ представить эти данные - это сделать 100 столбцов, в каждом из которых ставить либо 0 (если признака нет), либо 1 (если признак есть). В итоге у нас получается разреженная матрица размером 1'000'000'000 х 100. Умножаем её саму на себя, получаем разреженную матрицу 1'000'000'000 х 1'000'000'000. Затем, если видим, что для пары "строка-столбец" значение ячейки больше некоторого значения (либо 10 в случае простого перемножения матриц, либо 0.5 если вычисляли cosine similarity), значит эти записи достаточно похожи друг на друга.

Но здесь не понятен один момент. Если мы сравниваем этот миллиард записей между собой, то это задача кластеризации. Одни похожие записи попадут в один кластер, другие - в другой, и т.д. Задача найти скажем первые 10 наиболее похожих записей просто бессмысленная. Можно объединить такие записи в один кластер:

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 21
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 22
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 23
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 24
...
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 21 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 22 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 23 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 24 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 25 20
...
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 21 19 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 22 19 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 23 19 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 24 19 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 25 19 20
...

Другие похожие записи попадут в другой кластер.

А если у нас на входе допустим одна запись и нужно сравнить её с этим миллиардом записей и найти N наиболее похожих, то это совершенно другая задача.

Я бы сначала разобрался в чем смысл исходной задачи.

...

Рейтинг:

0 / 0

10.01.2021, 07:19

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034551

Arhat109

Участник

Откуда: из СССР

Сообщения: 2 387

Рейтинг: 0 / 0

Перечитал тему, и как-то не понял, мне одному кажется что решение задачи в иной плоскости?

Дано: дата и 20 цифр. Почему их не загнать в таблицу "повдоль" в три колонки: номер записи, дата, число (одно!).

В этом разе станет достаточно сопоставить количество совпадающих строк (чисел) у номеров записей в возрастающем порядке и только.

Типа так:

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.

CREATE DATABASE `test`;

USE `test`;

CREATE TABLE sort20 (
    id     INT(11) UNSIGNED PRIMARY KEY AUTO_INCREMENT,
    row_id INT(11) UNSIGNED,
    date   DATE,
    number TINYINT(4) UNSIGNED,
    
    INDEX num_idx (number)
) ENGINE = INNODB;

INSERT INTO sort20 (row_id, date, number) VALUES
(1, "2021-01-10", 1),
(1, "2021-01-10", 2),
(1, "2021-01-10", 3),
(1, "2021-01-10", 4),
(1, "2021-01-10", 5),
(1, "2021-01-10", 6),
(1, "2021-01-10", 7),
(1, "2021-01-10", 8),

(2, "2021-01-09", 1),
(2, "2021-01-09", 3),
(2, "2021-01-09", 5),
(2, "2021-01-09", 7),
(2, "2021-01-09", 9),
(2, "2021-01-09", 11),
(2, "2021-01-09", 13),
(2, "2021-01-09", 15),

(3, "2021-01-11", 2),
(3, "2021-01-11", 4),
(3, "2021-01-11", 6),
(3, "2021-01-11", 8),
(3, "2021-01-11", 10),
(3, "2021-01-11", 12),
(3, "2021-01-11", 14),
(3, "2021-01-11", 16),

(4, "2021-01-12", 1),
(4, "2021-01-12", 2),
(4, "2021-01-12", 3),
(4, "2021-01-12", 4),
(4, "2021-01-12", 17),
(4, "2021-01-12", 18),
(4, "2021-01-12", 19),
(4, "2021-01-12", 20)
;

SELECT number, COUNT(row_id) AS cnt1, GROUP_CONCAT(row_id ORDER BY row_id) AS `rows`
FROM sort20
GROUP BY number
HAVING cnt1 > 1
ORDER BY `rows`
;

Получаем временную табличку, в которой заведомо меньше 100 записей (числа не более чем двузначные) и далее строим запрос по поиску требуемых совпадений, поиском вхождения в подстроку .. или можно точно также разложить повдоль и повторить сборку по 10 совпавших номеров..

Не?

...

Рейтинг:

0 / 0

10.01.2021, 09:09

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034552

Arhat109

Участник

Откуда: из СССР

Сообщения: 2 387

Рейтинг: 0 / 0

Тут получим:

numbercnt1rows52"1+2"72"1+2"13"1+2+4"33"1+2+4"62"1+3"82"1+3"23"1+3+4"43"1+3+4"

Остается только выбрать такие строки, которые присутствуют в 4-х числах (задачу уменьшил, всего 8, найти совпадение по 4-м), тут это:
1+2, числа: 5,7,1,3
1+3, числа: 6,8,2,4
1+4, числа: 1,3,2,4

Справитесь? :)

...

Рейтинг:

0 / 0

10.01.2021, 09:23

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034556

Ares_ekb

Участник

Откуда: Екатеринбург

Сообщения: 645

Рейтинг: 0 / 0

Arhat109,

только подвох в том, что у вас на выходе каждая из строк длиной до миллиарда номеров :) И как эти гигантские строки сравнивать между собой хз, или я чего-то не понял.

...

Рейтинг:

0 / 0

10.01.2021, 10:13

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034586

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

Arhat109,
не понял я ничего. Вот, например, есть таблица:

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.

5 7 8 15 22 23 27 34 37 39 40 41 43 44 50 55 57 58 62 70
3 5 9 12 15 16 19 20 23 25 29 30 34 37 43 48 55 58 59 61
2 3 5 12 15 21 23 24 26 28 36 37 38 39 50 53 55 59 66 68
2 3 5 7 8 11 14 16 19 25 35 43 50 51 55 60 61 66 67 70
2 8 11 12 14 17 18 20 21 28 36 43 50 53 55 56 59 62 64 66
2 5 10 11 15 16 18 19 27 29 30 32 33 35 42 43 45 62 63 65
5 6 7 8 16 21 27 30 39 46 49 50 51 53 54 58 62 64 68 70
1 2 3 7 9 11 12 13 15 17 20 24 26 28 34 45 48 49 61 66
7 8 12 13 14 21 23 24 27 28 30 38 40 49 50 52 53 54 63 68
1 3 5 7 9 10 14 21 23 27 31 34 45 46 47 48 51 52 64 65
1 5 6 7 9 11 14 17 29 30 33 36 37 39 42 43 48 50 64 65
2 9 11 12 13 17 18 23 25 27 33 38 40 44 45 46 47 52 64 66
1 5 6 11 14 16 17 20 22 23 25 26 31 41 44 47 56 59 64 70
3 5 9 19 24 25 26 27 28 33 34 40 45 50 53 55 59 63 64 66
3 6 8 11 13 19 23 25 28 32 33 34 37 41 50 54 56 57 59 65
2 3 5 7 15 23 28 29 32 37 38 46 49 50 52 53 59 60 61 62
1 5 7 9 11 16 18 20 22 25 26 35 45 46 47 51 56 67 68 70
11 15 16 22 25 28 29 32 34 35 42 43 47 49 52 53 54 57 62 63
8 9 15 17 26 30 31 35 37 38 41 42 44 50 52 58 60 64 66 69
4 6 8 15 16 17 18 24 26 33 34 35 36 37 42 44 50 54 65 69
5 7 8 15 22 23 27 34 37 39 40 41 43 44 50 55 57 58 62 70

Добавьте в строку любую дату или вообще просто пронумеруйте.
И найдите максимальное количество совпадений 10 цифр.

...

Рейтинг:

0 / 0

10.01.2021, 12:28

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034590

ptr128

Участник

Откуда: Moscow

Сообщения: 680

Рейтинг: 0 / 0

miltorg,

любых 10 чисел или только первых?

...

Рейтинг:

0 / 0

10.01.2021, 12:36

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034591

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

miltorg,

Вот например я вчера добавил 5 или чуть больше первых строк и получил

mysql> WITH MyScope AS (
-> SELECT Id, Dannye, COUNT(1) OVER (PARTITION BY Dannye) AS Cnt
-> FROM tabiz2010 )
-> SELECT * FROM MyScope WHERE Cnt>1;

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.

+--------+-------------------------------+-----+
| Id     | Dannye                        | Cnt |
+--------+-------------------------------+-----+
| 739010 | 19_35_43_50_55_60_61_66_67_70 |   2 |
| 739025 | 19_35_43_50_55_60_61_66_67_70 |   2 |
| 819545 | 2_12_21_28_36_50_53_55_59_66  |   2 |
| 447238 | 2_12_21_28_36_50_53_55_59_66  |   2 |
+--------+-------------------------------+-----+

4 rows in set (18.27 sec)

...

Рейтинг:

0 / 0

10.01.2021, 12:37

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034592

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

miltorg,
Забыл. Какую то цифру добавил искусственно. Сейчас

...

Рейтинг:

0 / 0

10.01.2021, 12:39

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034593

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

Код: sql

1.
2.
3.
4.
5.
6.

+--------+-------------------------------+-----+
| Id     | Dannye                        | Cnt |
+--------+-------------------------------+-----+
| 819545 | 2_12_21_28_36_50_53_55_59_66  |   2 |
| 447238 | 2_12_21_28_36_50_53_55_59_66  |   2 |
+--------+-------------------------------+-----+

Так должно быть.

Вероятно что это 3 и 5-я строка исходного.

...

Рейтинг:

0 / 0

10.01.2021, 12:44

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034594

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

miltorg

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.

+--------+-------------------------------+-----+
| Id     | Dannye                        | Cnt |
+--------+-------------------------------+-----+
| 739010 | 19_35_43_50_55_60_61_66_67_70 |   2 |
| 739025 | 19_35_43_50_55_60_61_66_67_70 |   2 |
| 819545 | 2_12_21_28_36_50_53_55_59_66  |   2 |
| 447238 | 2_12_21_28_36_50_53_55_59_66  |   2 |
+--------+-------------------------------+-----+

4 rows in set (18.27 sec)

Миллион строк за 20 сек.
А дальше будет хуже или линейно будет рости?

...

Рейтинг:

0 / 0

10.01.2021, 12:49

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034595

вадя

Участник

Откуда: Екатеринбург

Сообщения: 19 399

Рейтинг: 0 / 0

miltorg,

вот почему не можно сформулировать правильно конечную задачу?
и отвечать на вопросы

ptr128

любых 10 чисел или только первых?

...

Рейтинг:

0 / 0

10.01.2021, 12:57

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034596

Arhat109

Участник

Откуда: из СССР

Сообщения: 2 387

Рейтинг: 0 / 0

Ares_ekb

Откуда взяли миллиард номеров, если их в исходном сообщении указано 5000 "всего" и прирост по одному в день? Скуль стока не проживет .. кмк. ;)

Как понимаю:
1. в числах строки нет повторов, отсюда их можно упорядочить по возрастанию
2. числа в строке максимум двухзначные, стало быть крайнее число: 99
3. Сама табличка не велика, но простой перебор комбинаций - огромен.

Отсюда:
Даже если одно и тоже число присутствует в каждой строке - в сборке длина строки не может превысить количество номеров строк.

Откуда "миллиарды"?

...

Рейтинг:

0 / 0

10.01.2021, 12:58

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034597

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

вадя,
Потому что мне не понятен вопрос. Какие первые цифры? Откуда это взялось? Откуда?

...

Рейтинг:

0 / 0

10.01.2021, 13:06

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034598

miltorg

Участник

Откуда: Калининград

Сообщения: 556

Рейтинг: 0 / 0

Arhat109,

Потому что брать нужно 10 цифр из строки. 10.

...

Рейтинг:

0 / 0

10.01.2021, 13:07

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034599

Arhat109

Участник

Откуда: из СССР

Сообщения: 2 387

Рейтинг: 0 / 0

miltorg

Arhat109,
не понял я ничего. Вот, например, есть таблица:

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.

5 7 8 15 22 23 27 34 37 39 40 41 43 44 50 55 57 58 62 70
3 5 9 12 15 16 19 20 23 25 29 30 34 37 43 48 55 58 59 61
2 3 5 12 15 21 23 24 26 28 36 37 38 39 50 53 55 59 66 68
2 3 5 7 8 11 14 16 19 25 35 43 50 51 55 60 61 66 67 70
2 8 11 12 14 17 18 20 21 28 36 43 50 53 55 56 59 62 64 66
2 5 10 11 15 16 18 19 27 29 30 32 33 35 42 43 45 62 63 65
5 6 7 8 16 21 27 30 39 46 49 50 51 53 54 58 62 64 68 70
1 2 3 7 9 11 12 13 15 17 20 24 26 28 34 45 48 49 61 66
7 8 12 13 14 21 23 24 27 28 30 38 40 49 50 52 53 54 63 68
1 3 5 7 9 10 14 21 23 27 31 34 45 46 47 48 51 52 64 65
1 5 6 7 9 11 14 17 29 30 33 36 37 39 42 43 48 50 64 65
2 9 11 12 13 17 18 23 25 27 33 38 40 44 45 46 47 52 64 66
1 5 6 11 14 16 17 20 22 23 25 26 31 41 44 47 56 59 64 70
3 5 9 19 24 25 26 27 28 33 34 40 45 50 53 55 59 63 64 66
3 6 8 11 13 19 23 25 28 32 33 34 37 41 50 54 56 57 59 65
2 3 5 7 15 23 28 29 32 37 38 46 49 50 52 53 59 60 61 62
1 5 7 9 11 16 18 20 22 25 26 35 45 46 47 51 56 67 68 70
11 15 16 22 25 28 29 32 34 35 42 43 47 49 52 53 54 57 62 63
8 9 15 17 26 30 31 35 37 38 41 42 44 50 52 58 60 64 66 69
4 6 8 15 16 17 18 24 26 33 34 35 36 37 42 44 50 54 65 69
5 7 8 15 22 23 27 34 37 39 40 41 43 44 50 55 57 58 62 70

Добавил и даже пронумеровал. Посмотрите пример, он упрощен, там всего по 8 цифирек на строку. Можно скопировать и проверить..

...

Рейтинг:

0 / 0

10.01.2021, 13:08

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034600

ptr128

Участник

Откуда: Moscow

Сообщения: 680

Рейтинг: 0 / 0

miltorg

А дальше будет хуже или линейно будет рости?

Я Вам сразу предлагал использовать триггер для выделения дупликатов. Но задачу Вы не озвучили толком. Если таблица пополняется регулярно и задача выделения дупликатов тоже регулярна, то триггер будет эффективней. Если задача разовая - то нет.

Так же Вы не описали, какие ограничения на этот ряд чисел накладывается. Например, если числа ограничены 128 и всегда записаны по возрастанию, эффективней будет кодировать их битовой строкой длиной всего в 16 байт. И быстрее сравнивать.

...

Рейтинг:

0 / 0

10.01.2021, 13:10

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034601

Arhat109

Участник

Откуда: из СССР

Сообщения: 2 387

Рейтинг: 0 / 0

miltorg

Arhat109,

Потому что брать нужно 10 цифр из строки. 10.

В вашем варианте в строке 20 цифирек, а брать надо 10. В моем примере в строке 8 цифирек, а беру 4. Мне было лениво рисовать инсерт на 20 цифирек для каждой строки. Это как пример иного подхода к решению. Строку надо хранить в мускуле повдоль, а не поперек. Тогда можно группировать и считать итого..

...

Рейтинг:

0 / 0

10.01.2021, 13:11

| Ответить | Цитировать | Написать

Как отсортировать 1 миллиард записей?

#40034602

ptr128

Участник

Откуда: Moscow

Сообщения: 680

Рейтинг: 0 / 0

miltorg

Какие первые цифры? Откуда это взялось? Откуда?

miltorgнайдите максимальное количество совпадений 10 цифр.

ptr128любых 10 чисел или только первых?

...

Рейтинг:

0 / 0

10.01.2021, 13:12

| Ответить | Цитировать | Написать

25 сообщений из 336, страница 5 из 14

все

Форумы / MySQL [игнор отключен] [закрыт для гостей] / Как отсортировать 1 миллиард записей?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=47&msg=40034597&tid=1828220]:	0ms
get settings:	10ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	193ms
get topic data:	9ms
get forum data:	2ms
get page messages:	55ms
get tp. blocked users:	1ms
others:	230ms

total:	520ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы