powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Нужен совет по выбору модели остатков
17 сообщений из 42, страница 2 из 2
Нужен совет по выбору модели остатков
    #32461482
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Tulenev
Храним остатки 100 магазинов разничной сети на каждый день за 1 год, номенклатура товаров 100000 наименований, получаем
100*100000*365 = 3 650 000 000 фактов в таблице


Повезло вам с магазинами, а магазинам - с ассортиментом :0)


------------
Best regards, Jimmy
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32461574
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Jimmy

ОК, обтекаю.
Ну, не надо так драматизировать, пожалуйста.
На самом деле, твоя предыдущая цитата по делу была - там именно про агрегатный взрыв написано. И про несжатые данные - тоже правильно.
Так что, сорри, сам не досмотрел.


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32461681
Torin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не надоело портить посты на тему ?
Хорошо бы модератору сделать типо форум "Чай с лимоном" как на forum.nobat.ru
Также не понял - кто-то пользуется openquery к кубику из TSQL для работы ?

to backfire: Мне показалось, что стоит подождать якись прикладов (примеров по приватной почте).жду.. спасибо..
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32461741
Фотография Quark
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2Tulenev
автор100*100000*365
Действительно с ассортиментом перебор все-таки.
А с наличием 100 магазинов с 100тыс товаров в каждом на каждый день.
- у нас пока нет межгалактических торговых сетей)
Когда будут, то и железо будет другое.

Свой пример:
6 тыщ партий товаров ежедневно*365.
А все остальные признаки принадлежат партии,
то есть Партия, Склад, ЦФУ, Производитель, Страна, итд
Всего получается за квартал 2млн записей занимающих 2Гб.
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32461769
Tulenev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
2Quark
Ну, конечно, дальше начинаются оговорки, что в отдельно взятом магазине присутствует только часть ассортимента, и в принципе нули можно не хранить, и если не было движений, то тоже можно не хранить, а вытягивать остатки на дату последнего движения, но это все уже элементы процедуры _подсчета_ остатков, а речь шла, кажется, о возможности примитивного хранения всех остатков
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32461794
Фотография Гликоген
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
тут есть "чай с лимоном" - "Просто треп"
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32461849
158
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
158
Гость
Что-то кого то глючит: в модеры заделался
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32461873
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Tulenev

1. Так вот - имеем 100*100000*365 записей.
ОК.
Это - хорошо или плохо?
Для OLTP системы - плохо (но возможно: пример - билинг, где объемы совсем взрослые), а для аналитической?
Если заказчику нужно для анализа наличие всех остатков?
Придется закрыть глаза на "жуткое" количество записей и искать решение (скорее всего - аппаратное или гибрид аппаротного и проектировочного).

2. Ты продемонстрировал, как легко можно посчитать размер таблицы при известных начальных условиях.
Это является "взрывом данных", или, все таки - контролируемый рост БД?
Второе, скорее.

3. Теперь, те же условия, только вопрос зададим "кубистам" - тем, кто юзает MOLAP.
Каков размер куба сейчас и что будет если добавим еще одно измерение, например "Номер партии"?
Мне кажется, что достаточно затруднительно ответить (для скептиков - буду увеличивать число размерностей до N. В случае РОЛАП с достаточной точностью будет просчитан результат, чего нельзя сказать о МОЛАП).
Может будет "взрыв", а может и нет. А может - уже произошел...
Т.е. на лицо слабоконтролируемый рост объемов данных (куба), который подразумевает неожиданные (статистические) выбросы .
Так не это ли и есть "взрыв"?


------------
Best regards, Jimmy
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32461945
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Константин Лисянский

Цитата из статьи:

It used a six-dimensional (including measures) banking cube, based on a 13 million row fact table. The relational fact table took 5188 Mb (including indexes) but not including any aggregates. Even including a significant number of aggregates, the MOLAP cube only took 336Mb,

Наши данные (РОЛАП, таблица, хорошо тебе знакомая - dmtb_acct_bal_fact)
Таблица, которая содержит деразряженные (вопрос производительности - можно было-бы и не деразряжать) остатки на счетах банка за полтора года:

СУБД: Sybase ASE 12.5
Записей: 13934112
Размер данных с индексами: 2520 Мб
Размерностей: более десяти (правда - часть из них иерархична и прикручена не напрямую к таблице фактов)

Результат (размер) в 2 раза меньший, чем в примере, что позволяет усомниться и в цифре 336 Мб.

Собственно - к чему это я?
А, да!
Везде есть место сомнению.
Автор статьи, по моему, "продвигает" MOLAP решения, поэтому и "развеевает мифы".

ЗЫ Я тут видел надысь рекламу Московского УВД: "В 2003 году было найдено 20000 угнанных автомобилей!"
Вопрос: А сколько не найдено?


------------
Best regards, Jimmy
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32462046
Фотография Гликоген
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Jimmy: ваши мощные посылы серьезно скомпрометированы вакансией вашей компании на headhunter.ru

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
Крупной компании – разработчику программного обеспечения требуется РАЗРАБОТЧИК ХРАНИЛИЩ ДАННЫХ (в проект Diasoft DATAGY)

Основные требования: 
· навыки программирования на SQL:написание сложных запросов; 
· опыт работы с использованием одной из СУБД: Oracle, Sybase, DB2, MS SQL; 
· знание языков DELPHI, VB, VBA, Borland C++ Builder
· английский технический 
Желательно: 
· знание средств многомерного анализа данных (OLAP); 
· опыт участия в разработке Хранилищ Данных; 
· опыт работы в банке, знание банковских технологий; 

Обязанности: 
Разработка процедур выгрузки, очистки и согласование данных из оперативных источников данных в корпоративное хранилище данных.
Разработка многомерных отчетов данных, 
разработка периодически выпускаемых отчетов, 
разработка сложных SQL-запросов.

Условия работы в нашей компании:
· Стабильная компания
· Дружный молодой коллектив
· Перспективы профессионального и карьерного роста
· Стабильная зарплата + премии по результатам работы
· Трудовой Кодекс
· Соц.пакет: бесплатное питание в компании, спортивный зал, бассейн, больничный, отпуск, страховка. 
 
Регион: Москва и область 
Требуемый опыт работы: Без опыта 
Предполагаемый уровень месячного дохода: от  400  до  700  USD 


(обратите внимание на оклад)
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32462257
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Гликоген

Обратил. И что?



------------
Best regards, Jimmy
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32462375
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Похоже, я так и не дождусь ответа, как мой "мощный посыл серьезно скомпрометирован" размером оклада специалиста без опыта .
А жаль.

ЗЫ Я абсолютно вам это говорю! (с) В. Черномырдин



------------
Best regards, Jimmy
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32462376
Фотография Гликоген
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Это, по-вашему, достойная специалиста по DWH оплата?
Вы не принимали участия в ее обсуждении?
Как дошли до жизни такой?
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32462417
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
0. Специалист-специалисту рознь.
1. Для специалиста по DWH с опытом - оплата совсем другая.
2. Для программиста ETL без опыта - такая.
3. Я не принимал участия в обсуждении ничьих зарплат, кроме собственной, которая меня, лично, устраивает.


------------
Best regards, Jimmy
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32464634
Torin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Баста портить мою тему ! ;-)
А денег мало, конечно, особенно для Москвы. Я примерно на таких условиях ищу в Одессе (Украина) - если кто прочтет - обращайтесь !
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32465070
Да уж, разговор пошел не туда...

Рискну описать, как на данный момент делается у меня. А делается тупо (и думаю, ничего нового не скажу) - в таблице фактов хранятся обороты за день, в кубе прописаны MDX формулы для расчета остатков на конец каждого периода, начиная с уровня [День] по этим оборотам, далее для средних за период остатков в количестве и сумме. Такой подход уже не очень устраивает, приходится делать ряд допущений и упрощений в формулах, так как начинает страдать сорость расчетов.

С другой стороны экперименты расчетов того же на основе snapshot' а остатков на даты, когда были их изменения, пока не привели к положительным результатам. А хранить остатки в таблице фактов на каждый день для меня, кажется, нереальным. Посчитаем на основе данных, имеющихся в моем распоряжении:

полный справочник товаров - 63722 артикула, складов (т. е. неких сущностей, по которым фирме интересно знать движение товара и его остатки) - 30, дней, за которые имеются данные - 1186 (с 01.01.2001 г.). В предположении, что не на каждом складе есть полная номенклатура товаров, подсчитал DISTINCT ArtcleID, WarehouseID, получилось 139 327 комбинаций. За весь период времени (1186 дней) надо создать таблицу и залить в нее 139 327 * 1186 = 165 241 822 записей, и каждый день добавлять по 139 327 штук. А номенклатура растет, как и кол-во складов.

Пока успокоился на том, что для кубов разного назначения настроил разную гранулярность измерений времени и товара. В итоге товародвижение можно смотреть с детализацией до недели (хотя, в принципе никого из пользователей не убъет, если она уменьшится и до месяца), ну а другие отчеты - до дня, но медленнее.
...
Рейтинг: 0 / 0
Нужен совет по выбору модели остатков
    #32465950
Torin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Меня в таком же направлении backfire "толкнул" Я думаю, что оно верно, пока делаю, посмотрим.. Хотя такой подход уже озвучивался, вероятно надо было просто сказать, что оно так работает. А дальше как в том фильме - "вижу цель, не вижу препятствий" ;-)
C расчетом на уровне СУБД большей частью беспокоят остатки без движения, которые все равно приходится вставлять на каждый день и, конечно, объем. Если время формирования витрины остатков на каждый мембер измерений можно перенести на MS AS, который его "спрячет" за увеличение на 1-3 сек времени отклика, то это уже хорошо..
...
Рейтинг: 0 / 0
17 сообщений из 42, страница 2 из 2
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Нужен совет по выбору модели остатков
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]