Выборка данных без дубликатов из таблицы в 200000 записей / Firebird, InterBase

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Firebird, InterBase [игнор отключен] [закрыт для гостей] / Выборка данных без дубликатов из таблицы в 200000 записей

25 сообщений из 47, страница 1 из 2

все

Выборка данных без дубликатов из таблицы в 200000 записей

#32240073

Nikita Krivtsov

Гость

Господа! Хелп!!

Третий день парюсь над SQL-запросом, ничего не получается, скорее всего туплю, и решение должно быть очевидным...

Задача:
выбрать из таблицы: ID товара (GOOD_ID) и его цену(PRICE_I), причем цена должна быть выбрана для самой последней дате изменения товара (EDIT_TIME).

В таблице 200000 записей! Т.е. сложные запросы с подзапросами вешают сервак намертво :)

Сама таблица: GOOD_ID, PRICE_I, EDIT_TIME, ....

Для примера данные:

Код: plaintext

1.
2.
3.
4.
5.
6.
7.

GOOD_ID     PRICE_I      EDIT_TIME
 4103          12 , 56          17 . 04 . 2001 
 4103          12 , 11          19 . 11 . 2003          <- нужно
 4103          9 , 78            22 . 05 . 2002 
 4103          9 , 32            13 . 09 . 2002 
 4104          2 , 26            26 . 02 . 2001 
 4104          2 , 11            26 . 03 . 2002 
 4104          3 , 51            26 . 08 . 2003     <- нужно

Вариант с процедурами не подходит, нужен именно SQL-запрос.

Подозреваю, что нужно юзать псевдонимы и RDB$DB_KEY???

...

Рейтинг:

0 / 0

19.08.2003, 12:28:59

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240124

Dnico

Участник

Откуда: Москва

Сообщения: 3 184

Рейтинг: 0 / 0

А кто мешает выполнить

Код: plaintext

SELECT * FROM PROCEDURE(...);

...

Рейтинг:

0 / 0

19.08.2003, 12:47:01

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240129

Johnmen

Участник

Откуда: Москва

Сообщения: 4 025

Рейтинг: 0 / 0

SELECT T1.GOOD_ID, T1.PRICE_I FROM Table T1
WHERE T1.EDIT_TIME=
(SELECT MAX(T2.EDIT_TIME) FROM Table T2
WHERE T2.GOOD_ID=T1.GOOD_ID)
...

...

Рейтинг:

0 / 0

19.08.2003, 12:49:45

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240146

Moses

Гость

А индекс на EDIT_TIME есть?

...

Рейтинг:

0 / 0

19.08.2003, 13:00:25

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240154

Dnico

Участник

Откуда: Москва

Сообщения: 3 184

Рейтинг: 0 / 0

Ну так-то оно так, но сколько будет выполнять ся этот запрос?
Можно прикинуть 200000 * 200000 ? Или я ошибаюсь ?

...

Рейтинг:

0 / 0

19.08.2003, 13:05:11

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240168

Johnmen

Участник

Откуда: Москва

Сообщения: 4 025

Рейтинг: 0 / 0

>Dnico

200000*200000 - это количество минут или секунд ?
:)

...

Рейтинг:

0 / 0

19.08.2003, 13:11:23

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240192

Moses

Гость

>200000*200000 - это количество минут или секунд ?
Это видимо двести тысяч РАЗ по двести тыщ запросов.
Секунды зависят от железки;-)
И, осмелюсь предположить, _от индексов_.

...

Рейтинг:

0 / 0

19.08.2003, 13:20:47

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240194

Fighter

Гость

> 200000*200000 - это количество минут или секунд ?
Количество проходов причём натурал!

...

Рейтинг:

0 / 0

19.08.2003, 13:21:15

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240198

Johnmen

Участник

Откуда: Москва

Сообщения: 4 025

Рейтинг: 0 / 0

>Moses

Если запросов, то я вижу 1*200000
И, конечно, индексирование влияет... (на скорость)...
:)

...

Рейтинг:

0 / 0

19.08.2003, 13:23:21

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240222

Dnico

Участник

Откуда: Москва

Сообщения: 3 184

Рейтинг: 0 / 0

Johnmen
А самому проверить ? Я вот ради интереса проверил ... у меня зашкалило за 24 мульена ... а зписей 17000.

Ну так как?

...

Рейтинг:

0 / 0

19.08.2003, 13:32:11

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240240

Johnmen

Участник

Откуда: Москва

Сообщения: 4 025

Рейтинг: 0 / 0

>Dnico

Что проверить ?
Количество выполненных запросов ? Количество времени ? Другое ?

...

Рейтинг:

0 / 0

19.08.2003, 13:38:10

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240247

Dnico

Участник

Откуда: Москва

Сообщения: 3 184

Рейтинг: 0 / 0

Johnmen

Кол-во запросов!
А время зависит от индексов. Это как раз самое простое - добавил индекс и гуляй себе ...

...

Рейтинг:

0 / 0

19.08.2003, 13:40:26

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240271

Johnmen

Участник

Откуда: Москва

Сообщения: 4 025

Рейтинг: 0 / 0

>Dnico

Количество запросов = 1*200000.
А что такое у тебя "24 мульена " ? И где это видно ?

...

Рейтинг:

0 / 0

19.08.2003, 13:48:06

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240279

Nikita Krivtsov

Гость

Зделал, как посоветовал Johnmen:

SELECT T1.GOOD_ID, T1.PRICE_I FROM PRICES T1
WHERE T1.EDIT_TIME=
(SELECT MAX(T2.EDIT_TIME) FROM PRICES T2
WHERE T2.GOOD_ID=T1.GOOD_ID)

И пошёл курить:

------ Performance info ------
Prepare time = 0ms
Execute time = 6m 27s 953ms
Avg fetch time = 15 518,12 ms
Current memory = 11 717 858
Max memory = 12 439 626
Memory buffers = 2 048
Reads from disk to cache = 9 410
Writes from cache to disk = 6
Fetches from cache = 6 716 061

P.S. Индекса на EDIT_TIME нет.

...

Рейтинг:

0 / 0

19.08.2003, 13:51:10

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240283

Dnico

Участник

Откуда: Москва

Сообщения: 3 184

Рейтинг: 0 / 0

Johnmen

Откуда взяться 1*200000 ?

Для каждой записи из T1 используется проход по всем записям в T2.

Умножаем ... получаем !!!

...

Рейтинг:

0 / 0

19.08.2003, 13:52:03

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240307

Johnmen

Участник

Откуда: Москва

Сообщения: 4 025

Рейтинг: 0 / 0

>Nikita Krivtsov

Если идет борьба за производительность, то делай, как уже советовал Dnico, ХП. Тогда достаточно будет одного запроса с соотвествующим ORDER BY и прописанной логикой "отброса" ненужных записей в ХП.

>Dnico
>Откуда взяться 1*200000 ?

Основной запрос - 1, для каждой записи основного (200000)- вложенный запрос. Итого 1*200000 запросов.

>Для каждой записи из T1 используется проход по всем записям в T2.

Ну да, кто спорит ?

>Умножаем ... получаем !!!

Так что же получаем ? Чего и в каких единицах ?

...

Рейтинг:

0 / 0

19.08.2003, 14:02:19

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240318

Dnico

Участник

Откуда: Москва

Сообщения: 3 184

Рейтинг: 0 / 0

Лучше всего всеже использовать процедуру:

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.

CREATE PROCEDURE  "proc"  
RETURNS (
    ID VARCHAR( 10 ),
    DT DATE,
    PRICE FLOAT)
AS
BEGIN
  FOR SELECT ID, MAX(DT) FROM TABLE GROUP BY ID INTO :ID, :DT DO BEGIN
    SELECT DISTINCT PRICE FROM TABLE WHERE ID = :ID AND DT = :DT INTO :PRICE;
    SUSPEND;
  END
END

...

Рейтинг:

0 / 0

19.08.2003, 14:08:44

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240319

Nikita Krivtsov

Гость

Вчера делал такой запрос:

Код: plaintext

1.
2.
3.
4.
5.

SELECT
a.GOOD_ID, a.price_i
FROM PRICES a
where exists (
SELECT GOOD_ID, max(EDIT_TIME)
FROM PRICES where pricelist_id= 2  and a.RDB$DB_KEY=prices.RDB$DB_KEY group by GOOD_ID

(where pricelist_id=2 ) -идентификатор прайс-листа, впринципе не столь важен для нашего запроса

Он не совсем правильный, но может быть от него отталкиваться???
По крайней мере выполнялся несколько секунд.

P.S. Да забыл указать, что после выборки из таблицы где 200000 записей, в результате должно получиться 10000 записей.

И еще такая проблема: изменять базу я не могу, т.е. не могу индексы добавить, не могу процедуры и т.д.

...

Рейтинг:

0 / 0

19.08.2003, 14:08:55

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240495

Johnmen

Участник

Откуда: Москва

Сообщения: 4 025

Рейтинг: 0 / 0

>Dnico

Это те же 200000 запросов...

>Nikita Krivtsov

Максимально быстро, в один запрос (ХП) :

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.

CREATE PROCEDURE MyProc 
RETURNS (I INTEGER, P NUMERIC( 15 ,  2 ), D TIMESTAMP)
AS
DECLARE VARIABLE ICURR INTEGER;
BEGIN
  ICURR= 0 ;
  FOR SELECT GOOD_ID, pr, dt FROM PRICES
      ORDER BY GOOD_ID, PRICE_I DESC INTO :I, :P, :D DO BEGIN
      IF (I<>ICURR) THEN SUSPEND;
      ICURR=I;
      END
  END

Обращение к ХП - как обычно, SELECT * FROM MyProc

...

Рейтинг:

0 / 0

19.08.2003, 15:14:25

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240615

Vagoo

Участник

Сообщения: 39

Рейтинг: 0 / 0

Может быть так:

select GOOD_ID, EDIT_TIME, max(PRICE_I)
from TABLE
order by GOOD_ID
having EDIT_TIME = (select max(EDIT_TIME) from TABLE)

...

Рейтинг:

0 / 0

19.08.2003, 16:31:25

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240661

Johnmen

Участник

Откуда: Москва

Сообщения: 4 025

Рейтинг: 0 / 0

>Vagoo

Не может быть так...:)

...

Рейтинг:

0 / 0

19.08.2003, 16:59:49

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240750

Maks_f

Участник

Откуда: Одесса

Сообщения: 213

Рейтинг: 0 / 0

Осмелюсь предположить что записи в таблице просто не разграничены периодами предположим по месячно, предлагаю завести поле которое будет обозначать период и ес-но индекс по этому полю, а далее я думаю ни какой вложеный запрос не положит сервак, так как будет выбираться не все ко-во записей а только по текущему периоду, однако надо бы устаканить случай когда запись по данному критерю последний раз появлялась в предыдущих периодах , однако это очень просто реализовать в процедуре. У нас так все прекрасно работает проблем нет.

...

Рейтинг:

0 / 0

19.08.2003, 17:50:14

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240980

Fighter

Гость

2 Johnmen
> Основной запрос - 1, для каждой записи основного (200000)- вложенный
> запрос. Итого 1*200000 запросов.

Для основного прохода считывается 200000 записей и для каждой записи опять же считывается 200000 записей! Отсюда и 200000*200000!

...

Рейтинг:

0 / 0

20.08.2003, 04:15:22

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32240986

StarWind

Участник

Откуда: г. Иркутск

Сообщения: 1 850

Рейтинг: 0 / 0

Народ, начнем с того что давайте заведем индексы по дате...
это первое...
далее декартово произведение кол-ва записей это при джойнах...
в данном случае будет просто сумма.
подобный запрос который предлагали у меня работает менее секунды, при индексах разумеется. А Having вообще враги придумали, по крайней мереэто более чем не подходит для данного случая, потому как последний вообще не ходит по индексам и отрабатывает он после получение результатов от секции Where после группировки и подсчета агрегатных функций. ТОбишь когда про индексы и вспоминать как-то поздно...

...

Рейтинг:

0 / 0

20.08.2003, 04:58:51

| Ответить | Цитировать | Написать

Выборка данных без дубликатов из таблицы в 200000 записей

#32241142

Johnmen

Участник

Откуда: Москва

Сообщения: 4 025

Рейтинг: 0 / 0

>Fighter

Чего 200000*200000 ??? Убитых енотов ? Буказоидов ? Другое ?
Вообще непонятно, о чем спор...

...

Рейтинг:

0 / 0

20.08.2003, 09:31:13

| Ответить | Цитировать | Написать

25 сообщений из 47, страница 1 из 2

все

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=40&fpage=508&tid=1580085]:	0ms
get settings:	9ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	28ms
get topic data:	8ms
get forum data:	2ms
get page messages:	85ms
get tp. blocked users:	1ms
others:	209ms

total:	362ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы