powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Oracle [игнор отключен] [закрыт для гостей] / получить первую запись из последней группы
13 сообщений из 38, страница 2 из 2
получить первую запись из последней группы
    #39323962
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
andrey_anonymousПо model - тема сложная.
Слишком много вариантов у модельки - итеративная, sequential rules, референсные модели... Куча условностей, влияющих на порядок выполнения.
По сути еще один движок, в плане сложности мало уступающий SQL-engine - при практически полном отсутствии исследований/публикаций на тему internals.
Black Box.
Я до сих пор в прод запустил только одну совсем простую модельку с единственным правилом - без нее было очень сложно решить конкретную задачу.Если не мешать все в кучу, то все достаточно тривиально.

Прежде всего модель означает загрузку всего набора данных в PGA для последующих speadsheet-like calculations.
При этом создается workarea c operation_type равным 'SPREADSHEET'.
Если в модели присутствует аналитика/агрегаты, то ясное дело создаются дополнительные рабочие области для сортировки и прочего.

Для обычной моедли правила вполняются столько раз сколько указано в rules.
Как правило указано не более одного правила на одну меру.
В случае итеративной выполнения правил соотвественно вся кухня выполняется n раз.
Правила бывают разного типа (с точки зрения перфоманса тоже), не буду в это счас углубляться.
"Условности" косвенно понимаются по плану {ORDERED [FAST] | ACYCLIC [FAST] | CYCLIC}.

Референснсные модели не более чем "рюшечка" и в них никакой необходимости вообще нет имхо - можно разрулить дополнительным соединением при получении набора данных для модели.

Главный жирный минус - нелинейный рост там, где recursive subquery factoring или PL/SQL solutions имеют линейный (я молчу про случаи когда workarea не влезает в опаративку и уходит в TEMP TS).

Думаю я не очень много нового сообщил. :)
Вообще работа почти написана, надеюсь в ближйший месяц опубликовать.
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39323981
Alexus12
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
+ попробовали нагрузочный тест варианта через MODEL 19747142 - оказался в 3 раза быстрее варианта моей адаптации примера Кайта 19743456 и при этом линейно масштабируемым


>Главный жирный минус - нелинейный рост там, где recursive subquery factoring или PL/SQL solutions имеют линейный (я молчу про случаи когда workarea не влезает в опаративку и уходит в TEMP TS).

dbms_photoshop , можете ли привести примеры / скрипты, чтобы оценить, как этот вариант нагружает систему / когда вылезает в TEMP?
вопрос важный, т.к. объемы большие (миллионы строк)
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39323993
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexus12dbms_photoshop , можете ли привести примеры / скрипты, чтобы оценить, как этот вариант нагружает систему / когда вылезает в TEMP?
вопрос важный, т.к. объемы большие (миллионы строк)Странный несколько вопрос. Я ж не знаю вашей конфигурации.
Если есть желание, чтоб ушло в темп, можно сделать в сессии примерно следующее
Код: plaintext
1.
alter session set workarea_size_policy=manual
alter session set sort_area_size=<очень мало>
А можно просто увеличивать объемы и смотреть динамику pga_allocated, temp_space_allocated из v$active_session_history для разных подходов.

Нагрузочное тестирование тоже звучит несколько странно.
Пока будет хватать оперативки и CPU для каждого из процессов все может быть относительно хорошо.
А вот с ростом data volumes модель будет все больше уступать альтернативным решениям.
Я не совсем согласен с выводами Кайта, как будет время посмотрю детальнее.
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39324025
Alexus12
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

>А вот с ростом data volumes модель будет все больше уступать альтернативным решениям.

вот про это и интерес - есть информация, когда это начинается / как узнать и измерить?
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39324134
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexus12dbms_photoshop,

>А вот с ростом data volumes модель будет все больше уступать альтернативным решениям.

вот про это и интерес - есть информация, когда это начинается / как узнать и измерить?Я сказал, что зависит от настроек.
Я рассказал про инструментарий и как пользоваться (как узнать и измерить).
Я объяснил некорректность вопроса.
Ты продолжаешь задавать то же самое.
Предполагается, что надо все прожевать и в рот положить?

Тест ниже для демонстрации не масштабируемости для задачи Кайта.
(мотивацией для нижеследующего было убедиться, что Кайт неправ)
Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
88.
89.
90.
91.
92.
93.
94.
95.
96.
97.
98.
99.
100.
101.
102.
103.
104.
105.
106.
107.
108.
109.
110.
set serveroutput on

declare
  l_create_sql varchar2(1000) := 'create table t as
select rownum study_site, trunc(dbms_random.value(1,10+1))*5000 cnt
from
(select * from dual connect by level <= 1e2) t1,
(select * from dual connect by level <= 1e#) t2';
  s            timestamp;
begin

  for i in 0 .. 4 loop

    dbms_output.put_line('Iteration ' || i || ' Records ' || 1e3 * 10 ** i);

    execute immediate 'drop table t';
    execute immediate replace(l_create_sql, '#', i);

    execute immediate 'truncate table z';

    s := systimestamp;
    insert --+ append
    --+ plsql zzz
    into z
      select min(study_site) mi, max(study_site) ma, sum(cnt) su
        from (select *
                from table(foo(cursor (select study_site, cnt
                                  from t
                                 order by study_site),
                               65000)))
       group by the_group
       order by the_group;
    dbms_output.put_line(rpad('PL/SQL', 10, ' ') ||
                         to_char(systimestamp - s));

    execute immediate 'truncate table z';

    s := systimestamp;
    -- NoFormat Start
    insert --+ append
    --+ model zzz
    into z
    SELECT s, MAX(e), MAX(sm) FROM (
        SELECT s, e, cnt, sm FROM t
         MODEL DIMENSION BY(row_number()
                                over(order by study_site) rn)
               MEASURES(study_site s, study_site e, cnt, cnt sm)
               RULES(sm[rn > 1] =
                       CASE WHEN (sm[cv() - 1] + cnt[cv()]) > 65000
                                  OR cnt[cv()] > 65000
                            THEN cnt[cv()]
                            ELSE sm[cv() - 1] + cnt[cv()]
                        END,
                     s[rn > 1] =
                       CASE WHEN(sm[cv() - 1] + cnt[cv()]) > 65000
                                 OR cnt[cv()] > 65000
                            THEN s[cv()]
                            ELSE s[cv() - 1]
                        END))
      GROUP BY s ORDER BY s;
    -- NoFormat End
    dbms_output.put_line(rpad('MODEL', 10, ' ') ||
                         to_char(systimestamp - s));

  end loop;

end;
/
Iteration 0 Records 1000
PL/SQL    +000000000 00:00:00.036000000
MODEL     +000000000 00:00:00.014000000
Iteration 1 Records 10000
PL/SQL    +000000000 00:00:00.031000000
MODEL     +000000000 00:00:00.028000000
Iteration 2 Records 100000
PL/SQL    +000000000 00:00:00.072000000
MODEL     +000000000 00:00:00.228000000
Iteration 3 Records 1000000
PL/SQL    +000000000 00:00:00.543000000
MODEL     +000000000 00:00:02.217000000
Iteration 4 Records 10000000
PL/SQL    +000000000 00:00:04.362000000
MODEL     +000000000 00:00:22.500000000

PL/SQL procedure successfully completed.


set lines 100 pages 100
column sign format a15
select ash.*,
       regexp_substr(sql_text, '--\+ [^ ]+', 1, 2) sign
  from (select sql_id,
               count(*) cnt,
               max(ash.pga_allocated) / 1024 pga_kb,
               nullif(max(ash.temp_space_allocated) / 1024, 1024) temp_kb,
               sql_exec_id
          from v$active_session_history ash
         where ash.sample_time > sysdate - 5 / (24 * 60)
         group by ash.sql_id, sql_exec_id) ash
  join v$sql v
    on ash.sql_id = v.sql_id
   and sql_text like '%--+ append%zzz%'
   and sql_text not like '%v$sql%'
 order by sql_text, sql_exec_id;

SQL_ID               CNT     PGA_KB    TEMP_KB SQL_EXEC_ID SIGN
------------- ---------- ---------- ---------- ----------- ---------------
6buf0spwk6tzn          3      11955               16777219 --+ model
6buf0spwk6tzn         22      96947               16777220 --+ model
d7ysg6gr2mt5r          4      54771               16777220 --+ plsql

Первые две итерации PL/SQL проигрывает в пределах погрешности.
Потом модель проигрывает в три раза, потом в четыре, потом в пять.
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39324141
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Еще пару моментов.
1) тестировать вариант с recursive subquery factoring для данной задачи без индекса на таблице - это вообще не серьезно, поэтому я его не включал.
2) если добавить к тесту выше еще одну итерацию (то есть на последней итерации будет 1М строк), результаты выглядят следующим образом.

cnt - время выполнения в секундах
число строк соответственно 10 000, 100 000 и 1 000 000. В последнем случае начинает уходить в темп для обоих подходов.
PL/SQL выполнился за минуту, для модели после получаса выполнения прибил сессию.
Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
select ash.*, regexp_substr(sql_text, '--\+ [^ ]+', 1, 2) sign
  from (select sql_id,
               count(*) cnt,
               max(ash.pga_allocated) / 1024 pga_kb,
               nullif(max(ash.temp_space_allocated) / 1024, 1024) temp_kb,
               sql_exec_id
          from v$active_session_history ash
         where ash.sample_time > sysdate - 1 / (24)
         group by ash.sql_id, sql_exec_id) ash
  join v$sql v
    on ash.sql_id = v.sql_id
   and sql_text like '%--+ append%yyyyy%'
   and sql_text not like '%v$sql%'
 order by 6, 2;

SQL_ID               CNT     PGA_KB    TEMP_KB SQL_EXEC_ID SIGN
------------- ---------- ---------- ---------- ----------- ---------------
abnq6xymjag8v          3      12356               16777219 --+ model
abnq6xymjag8v         24     102084               16777220 --+ model
abnq6xymjag8v       1793     191155    1025024    16777221 --+ model
0muc2rqf46yp6          1       5875                        --+ plsql
0muc2rqf46yp6          4      51908               16777220 --+ plsql
0muc2rqf46yp6         58      95795     361472    16777221 --+ plsql
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39324147
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
andrey_anonymous,
pattern matching
Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
with INVENT_TABLE as(
select 'bottle' PRODUCT,to_date('06.04.2001 00:00:00','DD.MM.RRRR HH24:MI:SS') TIME_ID,'8' QUANT,'D' OPER  from dual union all
select 'bottle',to_date('06.04.2001 01:00:00','DD.MM.RRRR HH24:MI:SS'),'9','D' from dual union all
select 'bottle',to_date('01.04.2001 00:00:00','DD.MM.RRRR HH24:MI:SS'),'10','I' from dual union all
select 'can',to_date('04.04.2001 21:00:00','DD.MM.RRRR HH24:MI:SS'),'7','I' from dual union all
select 'can',to_date('04.04.2001 21:05:00','DD.MM.RRRR HH24:MI:SS'),'77','I' from dual union all
select 'can',to_date('04.04.2001 23:00:00','DD.MM.RRRR HH24:MI:SS'),'10','D' from dual union all
select 'can',to_date('04.04.2001 23:01:00','DD.MM.RRRR HH24:MI:SS'),'11','D' from dual union all
select 'can',to_date('04.04.2001 20:00:00','DD.MM.RRRR HH24:MI:SS'),'11','D' from dual union all
select 'can',to_date('04.04.2001 19:00:00','DD.MM.RRRR HH24:MI:SS'),'5','U' from dual union all
select 'can',to_date('01.04.2001 00:00:00','DD.MM.RRRR HH24:MI:SS'),'15','I' from dual union all
select 'can',to_date('04.04.2001 22:00:00','DD.MM.RRRR HH24:MI:SS'),'99','D' from dual
)
select product, time_id, oper, rn, quant, decode(rn, 1, q, quant) fv, total - local_rn + 1 local_rn
from (select it.*, trunc(time_id) x,
             row_number() over (partition by product, trunc(time_id) order by time_id desc) rn
        from invent_table it)
match_recognize
(
  partition by product, x
  order by time_id
  measures
    count(*) local_rn,
    final count(*) total,
    first(quant) as q
  all rows per match
  pattern (grp+)
  define
    grp as oper = first(oper)
)
order by product, trunc(time_id), time_id desc;

PRODUC TIME_ID   O         RN QU FV   LOCAL_RN
------ --------- - ---------- -- -- ----------
bottle 01-APR-01 I          1 10 10          1
bottle 06-APR-01 D          1 9  8           1
bottle 06-APR-01 D          2 8  8           2
can    01-APR-01 I          1 15 15          1
can    04-APR-01 D          1 11 99          1
can    04-APR-01 D          2 10 10          2
can    04-APR-01 D          3 99 99          3
can    04-APR-01 I          4 77 77          1
can    04-APR-01 I          5 7  7           2
can    04-APR-01 D          6 11 11          1
can    04-APR-01 U          7 5  5           1

11 rows selected.

Одним только match_recognize решить несколько затруднительно.
Потому как если делать, чтоб был матч на каждую группу I/D то нельзя посчитать rn (она будет в рамках группы, а не всей секции).
А если делать матч на всю секцию, то нельзя посчитать "первую запись из последней группы" (будет первая запись в рамках всей секции, а не последней группы).

А поскольку в вашем решении во всех аналитических функциях одинаковое окно, то смысла в match_recognize нет.
Ну разве что таки можно извратиться и достичь нужного одним match_recognize без аналитики...
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39324301
Alexus12
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

спасибо!
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39324627
Фотография andrey_anonymous
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopandrey_anonymous,...нельзя посчитать rn (она будет в рамках группы, а не всей секции).
Если я ничего не путаю, то по постановке этого не требовалось.
rn появился в экспериментах ТС как побочный эффект от sog.
...что касается sog, то вариант, многократно вылизанный на данном форуме, мне как-то больше по душе, чем вариант с asktom...
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39324634
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
andrey_anonymousrn появился в экспериментах ТС как побочный эффект от sog
У него на это заточена логика.
Alexus12затем для каждой строки, где row_number() = 1 ...Речь не про sog.
Замечание было по поводу невозможности решения одним pattern matching и без аналитики.
Если я неправ - просьба опровергнуть с помощью конкретного решения. Вот и всё.
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39324637
Alexus12
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
>затем для каждой строки, где row_number() = 1

мне нужна эта строка для дальнейшей обработки, да
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39324649
Alexus12
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
andrey_anonymous,

слегка изменили ваш вариант отсюда 19743612

получилось так:
Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
вариант через last_value

with INV_TABLE as(
 select 'bottle' PRODUCT,to_date('06.04.2001 00:00:00','DD.MM.RRRR HH24:MI:SS') TIME_ID,'8' QUANT,'D' OPER  from dual union all
 select 'bottle',to_date('06.04.2001 01:00:00','DD.MM.RRRR HH24:MI:SS'),'9','D' from dual union all
 select 'bottle',to_date('01.04.2001 00:00:00','DD.MM.RRRR HH24:MI:SS'),'10','I' from dual union all
 select 'can',to_date('04.04.2001 21:00:00','DD.MM.RRRR HH24:MI:SS'),'7','I' from dual union all
 select 'can',to_date('04.04.2001 21:05:00','DD.MM.RRRR HH24:MI:SS'),'77','I' from dual union all
 select 'can',to_date('04.04.2001 23:00:00','DD.MM.RRRR HH24:MI:SS'),'10','D' from dual union all
 select 'can',to_date('04.04.2001 23:01:00','DD.MM.RRRR HH24:MI:SS'),'11','D' from dual union all
 select 'can',to_date('04.04.2001 20:00:00','DD.MM.RRRR HH24:MI:SS'),'11','D' from dual union all
 select 'can',to_date('04.04.2001 19:00:00','DD.MM.RRRR HH24:MI:SS'),'5','U' from dual union all
 select 'can',to_date('01.04.2001 00:00:00','DD.MM.RRRR HH24:MI:SS'),'15','I' from dual union all
 select 'can',to_date('04.04.2001 22:00:00','DD.MM.RRRR HH24:MI:SS'),'99','D' from dual 


)
--select count(*) from INV_TABLE;

select product, time_id, oper, rn, quant 
       ,prev_oper
 --      , fv_
       , fv_2      
     --  , lag(fv_ ignore nulls) over(partition by PRODUCT, trunc(TIME_ID) order by TIME_ID) lag--значение из предыд записи
     -- , lead(fv_ ignore nulls) over(partition by PRODUCT, trunc(TIME_ID) order by TIME_ID desc) lead--значение из предыд записи
--   , case rn 
 --          when 1 then 
 --            coalesce(
 --              lag(fv_ ignore nulls) over(partition by PRODUCT, trunc(TIME_ID) order by TIME_ID)
 --               , first_value(quant) over(partition by PRODUCT, trunc(TIME_ID) order by TIME_ID)
 --            )
 --         --else quant
 --          end fv    
     , last_value(fv_2 ignore nulls) over (partition by PRODUCT, trunc(TIME_ID) order by TIME_ID ) lv            
   from (
     SELECT /*+parallel(16)*/PRODUCT, TIME_ID,  OPER, QUANT
          , row_number() over (partition by PRODUCT, trunc(TIME_ID) order by TIME_ID desc) rn
          ,lead(oper, 1) over (partition by PRODUCT, trunc(TIME_ID) order by TIME_ID desc) prev_oper--предыдущий oper
 --         , case lead(oper, 1, oper) over(partition by PRODUCT, trunc(TIME_ID) order by TIME_ID desc)
 --           when oper then null else quant --если подгруппа та же , вернуть нулл, иначе quant
 --           end fv_
          
          , case lead(oper, 1) over(partition by PRODUCT, trunc(TIME_ID) order by TIME_ID desc)
            when oper then null --если подгруппа та же , вернуть нулл
           else quant --, иначе quant (если первая запись или если группа изменилась)
            end fv_2  
            
     FROM INV_TABLE
     ) i 
 --) group by PRODUCT, trunc(TIME_ID)
 ;



изменения:
1) во внутреннем запросе в выражении case lead(oper, 1, oper) убран последний oper - поэтому для крайнего значения возвращается null, что приводит к выводу в fv_2 значения _в том числе_ для первой записи первой подгруппы, а не только при смене подгрупп

2) во внешнем : выражение

case rn
-- when 1 then
-- coalesce(
-- lag(fv_ ignore nulls) over(partition by PRODUCT, trunc(TIME_ID) order by TIME_ID)
-- , first_value(quant) over(partition by PRODUCT, trunc(TIME_ID) order by TIME_ID)


заменено на

, last_value(fv_2 ignore nulls) over (partition by PRODUCT, trunc(TIME_ID) order by TIME_ID ) lv

это протягивает найденные во внутреннем запросе значения fv_2 от первой записи подгруппы на все ее записи

в результате код избавился от тормозов, вносимых lag(fv_ ignore nulls) , и масштабируется линейно
...
Рейтинг: 0 / 0
получить первую запись из последней группы
    #39481364
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopОдним только match_recognize решить несколько затруднительно.Все решается элементарно если чуть больше поразмыслить.

Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
SQL> select product, time_id, quant, oper, decode(c,1,q) fv, bug_case, bug_decode
  2  from (select it.*, trunc(time_id) x from invent_table it)
  3  match_recognize
  4  (
  5    partition by product, x
  6    order by time_id desc
  7    measures
  8      case when count(*) = 1 then 2 else 3 end bug_case,
  9      decode(count(*), 1, 2, 3) bug_decode,
 10      count(*) c,
 11      final last(d.quant) q
 12    all rows per match with unmatched rows
 13    pattern (D+ dummy*)
 14    define
 15      d as d.oper = 'D'
 16  )
 17  order by product, trunc(time_id), time_id;

PRODUC TIME_ID   QU O FV   BUG_CASE BUG_DECODE
------ --------- -- - -- ---------- ----------
bottle 01-APR-01 10 I
bottle 06-APR-01 8  D
bottle 06-APR-01 9  D 8
can    01-APR-01 15 I
can    04-APR-01 5  U
can    04-APR-01 11 D
can    04-APR-01 7  I
can    04-APR-01 77 I
can    04-APR-01 99 D
can    04-APR-01 10 D
can    04-APR-01 11 D 99

11 rows selected.


В решении предполагается, что последняя группа состоит из D. Если это может быть не так - то просто чуть усложняется шаблон.

Как выяснилось case/decode в measures всегда возвращают null.
Еще баг из той же оперы: 20561938 . Но там one row per match и криво работает nullif.
...
Рейтинг: 0 / 0
13 сообщений из 38, страница 2 из 2
Форумы / Oracle [игнор отключен] [закрыт для гостей] / получить первую запись из последней группы
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]