powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / 30 измерений в таблице фактов
48 сообщений из 48, показаны все 2 страниц
30 измерений в таблице фактов
    #32334452
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Нужно подобрать OLAP-средство, которое могло бы за приемлемое время (не более десятка секунд) работать с кубом: 30 измерений, 250 000 записей в табл фактов. Иерархия желательна. Динамическая работа - обязательна!Ктонить может подсказать продукт?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32334505
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Volj:

которое могло бы за приемлемое время (не более десятка секунд) работать с кубом

За десять секунд хотите сгенерировать куб, или чтобы каждый отчет на основе куба генерировался за 10 секунд?

Динамическая работа - обязательна

Что Вы имеете в виду под динамической работой - чтобы данные в кубе хранились как ROLAP и отчеты создавались на основе SQL-запросов, а не на основе многомерных запросов?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32334518
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
За десять секунд хотите сгенерировать куб, или чтобы каждый отчет на основе куба генерировался за 10 секунд?

Вращать куб и открывать новые измерения.

Что Вы имеете в виду под динамической работой - чтобы данные в кубе хранились как ROLAP и отчеты создавались на основе SQL-запросов, а не на основе многомерных запросов?

Я "скрываю" произвольное к-во членов произвольных измерений. Чтобы это не тормозило...
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32334546
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Volj:

Думаю Вам стоит потестировать OLAP-сервер Cognos PowerPlay (заказать ознакомительную версию можно через сайт http://cognos.narod.ru ). Несколько месяцев назад я проводил тестирование этого продукта - создал куб с 30 измерениями (в каждом - по 5 уровней иерархии), и этот куб крутился очень шустро (по 10 секунд ждать не приходилось).
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32334558
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Jurii:

А сколько записей было в табл фактов? Сколько занимала первоначальная подготовка данных? На каком сервере все крутилось?
Просто Вы, как я заметил, являетесь специалистом по Cognos ( ;-) ), а я пока разберусь...
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32334581
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Volj:

А сколько записей было в табл фактов?

Записей было немного, всего 1000, но зато в каждом из 30 измерений было более 1000 членов/категорий/листьев. Мой опыт подсказывает, что на 250 тысячах записей все будет работать также быстро.

Сколько занимала первоначальная подготовка данных?

Это был тест, я готовил абстрактные данные в Excel. занятие это было муторным. Но я не понимаю, почему Вас интересует этот вопрос - у Вас то будет другой источник данных...

На каком сервере все крутилось? ,

Конфигурацию не помню, но сервер был более чем скромный. Cognos PowerPlay умеет работать даже на 486 компьютерах с 16 мегами оперативной памяти.

Просто Вы, как я заметил, являетесь специалистом по Cognos ( ;-) ), а я пока разберусь...

Да, у меня опыт в области Cognos - более 4 лет, это немало. Если хотите - могу поделиться :) Пишите запрос через сайт http://cognos.narod.ru ...
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32334744
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Volj

Теория и практика говорят о том, что у серверов MOLAP существуют определённые проблемы (sparsity и database explosion), которые не каждый производитель умеет решать одинаково хорошо.

На мой взгляд, 30 измерений - достаточно много для одного куба.
Поделитесь, пожалуйста, что за проблему решаете.
По таблице фактов, вроде бы всё нормально - маленькая.

Мне кажется, что можно посмотреть в сторону ROLAP (в частности Microstrategy). При таком небольшом количествео записей с производительностью проблем не будет.
Хотя, возможно, это не тот случай, когда нужно такое мощное средство.
Возможно, и инструменты попроще типа Cognos или Business Objects подойдут.
Тут ещё в расчёт надо принимать количество пользователей, удобство разработки, эффективное управление метаданными, желание работать через Web, соображения безопасности и другие критерии выбора любой аналитической системы.

Рекомендую также ознакомиться со статьёй OLAP Data Scalability (http://www.dmreview.com/master.cfm?NavID=198&EdID=7636).

Будет понятие о том, какие вопросы задавать людям, которые будут пытаться Вам продать OLAP-сервер.


С уважением,
Константин Лисянский
http://lissianski.narod.ru/olap.html
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32334807
GoodLeo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Думаю что какой вопрос (не про что) такие и ответы будут.
1.Здесь каждый будет "рекламировать" то с чем работал. Найти специалиста который бы адекватно, да и ещё бесплатно сделал бы сравнительный анализ, скорее всего будет проблемотично.
2. А с вашей постановкой вопроса типа "хочу счастья" и не получится дать адекватный ответ. Счастья хотят все. И если был бы самый лучший инструмент, то все на нём бы и работали.
3. И действительно зачем 30 (!!!!) измерений??? Тут помойму любой сервак повесится, особенно если они ещё будут типа Parent-Children. И важно выбирать не только сервер но и ещё клиент. Так же не маловажно какой будет сервер (в смысле компьютер), на котором всё будет крутиться.

Так что факторов очень много и наврят ли это всё решается в форумах.
Я работаю с Microsoft Analysis Server 2000 и вроде нормально, хотя не уверен что 30 измерений в одном кубе летало бы за 10 секунд. Ведь и клиенты разные бывают. Например Excel закачивает все данные из куба, не важно, дойдешь ты до последней строчки в отчёте или нет. А OWC PivotTable закачивает порциями, при скроллинге.
Ну в общем много факторов.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335162
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Jurii

Подготовка данных - это формирование определенного OLAP-куба на основе таблицы фактов, а не их "набивка". И вопрос для меня, таким образом, остается открытым...

2 Константин Лисянский:

Спасибо за ссылку. Что касается конкретики по данной задаче, то см ниже...

2 GoodLeo:

Здесь каждый будет "рекламировать" то с чем работал.
Пусть рекламируют, я этого и добиваюсь. А по результатам рекламы я уже сам постараюсь провести сравнение :) Вот, например, Jurii прорекламировал, что системе Cognos совершенно безразлично к-во записей в таблице фактов: что 1000, что 250000. Я, конечно, понимаю, что речь идет не о сотнях миллионов записей, но все же как, вы верно заметили, чудес не бывает :)

И действительно зачем 30 (!!!!) измерений???
Нужно :) Если бы мне нужно было не 30 измерений, а, скажем, 5, я бы здесь вопрос не задавал бы, а использовал, на таких-то объемах, любой, который подошел бы мне по прочим критериям (включая цену).

И важно выбирать не только сервер но и ещё клиент.
Согласен, но это уже тема другого вопроса :)

Вопрос на самом деле стоит-то так: существует ли OLAP-сервер, который бы умел создавать любой OLAP-разрез "на лету"? Я не могу работать с заранее просчитанными данными, потому что это бессмысленно: кустомеры будут "дриллить" измерения и вращать куб, и мне неизвестно, как именно, так как основная задача:
1 - выявить взаимосвязь измерений (поэтому их так много - задача на стыке медицины и социологии, обрабатывать надо результаты тестов)
2 - выделить наиболее важные влияющие факторы, ответственные за взаимосвязь определенных групп измерений.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335179
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Константин:

Теория и практика говорят о том, что у серверов MOLAP существуют определённые проблемы (sparsity и database explosion), которые не каждый производитель умеет решать одинаково хорошо.

Вам приходилось на практике с этим сталкиваться? Я например знаю, что такая проблема есть у Oracle Express (и видимо есть у Oracle 9i OLAP) и Hyperion Essbase. OLAP-сервер MS AS по словам моего знакомого, работающего с большими БД, также имеет проблему лавинообразного роста размера куба. А вот Cognos сколько я ни тестировал - такой проблемы не встречал.

На мой взгляд, 30 измерений - достаточно много для одного куба.

Есть такая задача - анализ анкет. Например если в анкете 100 вопросов - то в кубе будет более 100 измерений... :)

Возможно, и инструменты попроще типа Cognos ... подойдут

Не забывайте, все гениальное - просто :) Попробуйте провести аналогичный моему тест на 30 измерениях в каждом из которых - 5 уровней иерархии, и Вы поймете, что Microstrategy - это все же не OLAP.

To GoodLeo:

1.Здесь каждый будет "рекламировать" то с чем работал.
3. И действительно зачем 30 (!!!!) измерений??? Тут помойму любой сервак повесится, особенно если они ещё будут типа Parent-Children


Советую не смотреть много рекламы, а использовать информацию, которая основана на реальном опыте. Хотя те, кто считает свои OLAP-продукты недостаточно сильными для решения этой задачи - просто не будут о них упоминать.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335208
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Volj:

Подготовка данных - это формирование определенного OLAP-куба на основе таблицы фактов, а не их "набивка".

Ну теперь понятно. Это я называю генерацией или процессингом куба. Время необходимое для формирования куба зависит от кол-ва записей и от кол-ва категорий/листьев/членов. Я думаю для 250000 записей при 30 измерениях это будет несколько минут - но это нужно проверить экспериментально.

Вот, например, Jurii прорекламировал, что системе Cognos совершенно безразлично к-во записей в таблице фактов: что 1000, что 250000. Я, конечно, понимаю, что речь идет не о сотнях миллионов записей, но все же как, вы верно заметили, чудес не бывает :)

Я бы не сказал, что с моей стороны это была реклама - скорее я просто поделился опытом и высказал предположение. Я не спорю, чудес не бывает, но обработка 250000 записей - это не чудо, а вполне реальная задача. Мне приходилось закачивать в кубы десятки миллионов записей, в кубах было полтора десятка измерений. И я уверен, что если бы я сделал еще полтора десятка измерений - ничего бы не изменилось. Cognos PowerPlay умеет работать с пустотами в кубе, и соблюдает баланс между хранением в кубе агрегатов и формул, на основе которых производные показатели вычисляются налету.

Мне просто не хочется тратить время на набивку 250000 записей. Поэтому я предлагаю Вам потестировать ознакомительную версию PowerPlay на уже имеющихся у Вас данных.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335233
GoodLeo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
OLAP куб изначально строится на известных исходных данных необходимых для его создания:
- меры (количество, сумма и т.д.)
- измерения (товары, клиенты, даты движения и т.д.).
OLAP изначально предназначен для того что бы получать срезы по сочетаниям мер и измерений.
Есс-но, если вы у какого - то измерения отключаете член или группу членов, то OLAP "на лету" пересчитывает данные". Но скорость это лёта зависит от многих факторов.
Вращать и дрлить куб можно как угодно и сколько угодно на любой OLAP платформе.
Другое дело что вам нужно выявить взаимосвязи и т.д. и т.п. Тогда возможно вам нужно использовать средства Data Minig, но про них я ничего сказать не могу. Сам серъёзно не использовал.
Или придётся создавать вычисляемые меры, для выявления закономерностей, что не так то просто и безусловно требует "известности" задачи.
Измерений можно делать и 30 и 100, но тогда они должны быть "ровными", что бы это реально работало.

Полностью поддерживаю слова Юрия:
Советую не смотреть много рекламы, а использовать информацию, которая основана на реальном опыте.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335259
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 GoodLeo & Jurii:

Хотя те, кто считает свои OLAP-продукты недостаточно сильными для решения этой задачи - просто не будут о них упоминать.

2 Jurii:

Да, конечно. Именно сужения списка продуктов для сравнения я и добиваюсь.

Я думаю для 250000 записей при 30 измерениях это будет несколько минут - но это нужно проверить экспериментально.

Ок, спасибо, проверим :) Для меня сейчас важно, минуты или месяца ;-)

И я уверен, что если бы я сделал еще полтора десятка измерений - ничего бы не изменилось.

Ну это вряд-ли :) Хотя бы линейный рост "тормозов" должен наблюдаться... Кстати, подскажите пропорционально чему замедляется работа при увеличении количества измерений: логарифмически, линейно, в квадрате или экспоненциально? разумеется, я не прошу точных формул :)

Обработка 250000 записей - это не чудо, а вполне реальная задача
Да, конечно. Чудо - это одинаковое время обработки 1000 записей и 250000. Как, впрочем, и Ваше предыдущее высказывание относительно прибавления полутора десятка измерений ;-)
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335279
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 GoodLeo:

Измерений можно делать и 30 и 100, но тогда они должны быть "ровными", что бы это реально работало.

Поясните, plz. Что это за термин "ровные"?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335308
GoodLeo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Грубо говоря - с известной структурой.
Т.е. когда в момент дизайна вы чётко определяете сколько в нём будет уровней.
Если же использовать измерение типа Parent-Children, когда глубина измерения зранее не известна, то будет ж.....а. :)
В смысле она будет когда таких измерений много и членов в них много.
На производительность MS AS влияют так же другие факторы но это уже детали.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335330
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Volj:

Чудо - это одинаковое время обработки 1000 записей и 250000

Есть некоторое фиксированные время на "разгон" в процессе генерации куба (для 1000 и для 250000 оно одинаково). Далее записи читаются например со скоростью 10000 записей в секунду. Обычно этап чтения - самый длинный, но если например будет очень много категорий - то самым длинным будет формирование шапки куба... У Вас есть оценки, сколько элементов будет в каждом измерении?

Кстати, подскажите пропорционально чему замедляется работа при увеличении количества измерений: логарифмически, линейно, в квадрате или экспоненциально?

На мой взгляд можно говорить о линейном замедлении и только по той причине, что каждая запись будет содержать больше полей и процесс чтения будет дольше. Но я не могу сказать, что куб PowerPlay с 30 измерениями будет генериться в 15 раз дольше, чем куб с 2 измерениями. Как то давно я создавал тестовый куб с 50 измерениями для одной из структур МПС Белоруссии, и если бы число измерений влияло бы на скорость генерации куба существенно - я бы это заметил.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335390
GoodLeo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В MS AS процессинг состоит из двух условных этапов:
1. Закачка записей в партиции. Если куб ROLAP - то время на данную операцию практически не затрачивается. В противном случае - рост временных затрат линеен по отношению к количеству записей в таблице фактов. Ну это очевидно.
2. Расчёт агрегаций. Тут не так всё просто. Вид зависимости оценить сложно, так как MS AS "по умному" рассчитывает агрегации. Хотя наверное если задать 0% агрегаций, то наверное зависимость тоже будет линейная :).
Более точно - надо читать теорию, а мне лень :)
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335455
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Jurii

Вам приходилось на практике с этим сталкиваться? Я например знаю, что такая проблема есть у Oracle Express (и видимо есть у Oracle 9i OLAP) и Hyperion Essbase. OLAP-сервер MS AS по словам моего знакомого, работающего с большими БД, также имеет проблему лавинообразного роста размера куба. А вот Cognos сколько я ни тестировал - такой проблемы не встречал

Приходилось. Как раз с Cognos. Только было немного по-другому.
Кубы были довольно небольшими (150 МБайт), но вот, быстродейтсвие при этом было кастратофически низким. Причём попытки его поднять в виде партишионинга и других приёмов оказались не очень успешными. Пришлось от него отказываться.

Есть такая задача - анализ анкет. Например если в анкете 100 вопросов - то в кубе будет более 100 измерений... :)

Одноуровневые иерархии ответов с очень небольшим количеством листовых элементов. Совсем не впечатляет :). Это и на Excel можно анализировать.


Не забывайте, все гениальное - просто :) Попробуйте провести аналогичный моему тест на 30 измерениях в каждом из которых - 5 уровней иерархии, и Вы поймете, что Microstrategy - это все же не OLAP

Намекаете на то, что я ошибся форумом? То, что это не OLAP расскажите аналитикам olapreport.com, gartner и прочим авторитетам, на которых Вы любите ссылаться в своих постингах, восхваляющих Cognos.
Прошу при этом заметить, что я не рекламирую здесь Microstrategy, а лишь делаю попытки объяснить, что этот продукт имеет много положительных сторон и его тоже стоит рассматривать.

Желаю успехов.

С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335560
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Константин:

Кубы были довольно небольшими (150 МБайт), но вот, быстродейтсвие при этом было кастратофически низким. Причём попытки его поднять в виде партишионинга и других приёмов оказались не очень успешными.

Как Вы говорили насчет ХД - "Проектировать надо правильно"? ;) Это и для кубов актуально... В таких случаях надо обращаться за помощью к экспертам по Cognos через сайт http://cognos.narod.ru

Пришлось от него отказываться.

Как я понимаю, это произошло на Вашем текущем месте работы? Если да - то компания Cognos не приобрела ценного партнера. К счастью, свято место пусто не бывает, и при моем активном участии у Cognos появляются новые партнеры как в Москве, так и в регионах :)

Одноуровневые иерархии ответов с очень небольшим количеством листовых элементов. Совсем не впечатляет :). Это и на Excel можно анализировать

В Excel можно это анализировать, если объем данных небольшой.

Намекаете на то, что я ошибся форумом? То, что это не OLAP расскажите аналитикам olapreport.com, gartner

Да нет, не намекаю - просто знаю, что там где нет кубов - нет гарантии быстрого отклика на запрос пользователя. В то же время Microstrategy относится к классу Business Intelligence.
Задам ка я пожалуй этот вопрос Вашему коллеге, который будет выступать на этом мероприятии: http://www.osp.ru/BI
Заодно после просмотра 3-й части Матрицы - Революция, послушаю про Революцию в отчетности (доклад ЮРИЯ Ротманова, представителя Cognos :)
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335589
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Jurii:

Есть некоторое фиксированные время на "разгон" в процессе генерации куба?
Чем в это время Cognos занимается? Считает аггрерации, обрабатывает элементы измерений или еще чего-то? И что это вообще за время, как его оценить?
Спасибо за развернутый ответ про измерения. Размер куба примерно 10E+50.

To GoodLeo (да и вообще всем):

MS AS "по умному" рассчитывает агрегации.
Поясните, если есть возможность... Последовательно, от меньшего уровня аггрегирования к большему, или в произвольный момент считает произвольный аггрегат, без обязательного наличия аггрегатов более низкого уровня? На этот вопрос, по-моему, может дать ответ не теория, а только чистая практика :)

To Константин Лисянский:

Кубы были довольно небольшими (150 МБайт)
Имеется в виду размер базы, на основании которой рассчитывается куб, или размер куба с просчитанными аггрегатами?

Одноуровневые иерархии ответов с очень небольшим количеством листовых элементов. Это и на Excel можно анализировать.
На Excel нельзя. Не передергивайте :)

To Jurii снова:

А как, вообще, Cognos переваривает обратную моей ситуацию: сотни миллионов записей в табл фактов и относительно небольшой (5-7 измерений) куб?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335706
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Volj:

Есть некоторое фиксированные время на "разгон" в процессе генерации куба?
Чем в это время Cognos занимается?


Cognos ждет, пока выполнится запрос на реляционном сервере и начнется фетч на OLAP-сервер во временный файл.
Если источники данных в модели куба - это несложные запросы к реляционным БД и плоские локальные файлы - то это время составляет несколько мгновений или секунд. Но если есть сложный запрос(ы) - то этот нулевой этап может длиться долго.

Размер куба примерно 10E+50

Правильно ли я понимаю, что это означает, что например в 20 измерениях у Вас по 100 элементов, а еще в 10 измерениях - по 10 элементов? (100^20*10^10 = 10^50)

Имеется в виду размер базы, на основании которой рассчитывается куб, или размер куба с просчитанными аггрегатами?

Константин имел в виду размер куба с просчитанными агрегатами.

А как, вообще, Cognos переваривает обратную моей ситуацию: сотни миллионов записей в табл фактов и относительно небольшой (5-7 измерений) куб?

Приведу пример: В кубе по анализу продаж 10 измерений и 12 показателей. Закачиваются данные порциями по 5-6 миллионов записей - каждая порция - по 25 минут. Всего около 90 миллионов записей. Размер куба со всеми агрегатами - около гигабайта. Отчеты в любых разрезах на компьютерах Pentium-2 256 Mb оперативки - летают, по 10 секунд ждать не приходится.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335812
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Volj

А почему кстати вам не подходит ROLAP решение типа Business Objects или Oracle Discoverer?
Там нет никаких ограничений на количество измерений, так как они все виртуальны, а 250000 записей это небольшой объем.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335829
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
То Birkhoff:

А почему кстати вам не подходит ROLAP решение типа Business Objects или Oracle Discoverer?

Может, и подходит, я же не знаю :) У Вас былда практика использования этих продуктов для решения задач, похожих на мою (см. мои сообщения выше)?

Там нет никаких ограничений на количество измерений, так как они все виртуальны...
Это как понять? Пишите процедуру аггрегации, и все будет ок? Или я чего-то не понимаю?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335840
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Jurii:

Правильно ли я понимаю, что это означает, что например в 20 измерениях у Вас по 100 элементов, а еще в 10 измерениях - по 10 элементов? (100^20*10^10 = 10^50)
Примерно так, только разброс несколько больше...

Закачиваются данные порциями по 5-6 миллионов записей - каждая порция - по 25 минут. Размер куба со всеми агрегатами - около гигабайта.
А время аггрегирования какое? Или аггрегирование было учтено в "25 минут"?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335871
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Volj:

А время аггрегирования какое? Или аггрегирование было учтено в "25 минут"?

Да, каждые 5-6 миллионов записей подкачивались за 25 минут (включая чтение и агрегирование).

А почему кстати вам не подходит ROLAP решение типа Business Objects или Oracle Discoverer?
Может, и подходит, я же не знаю :)


Как я понял, Ваши аналитики должны заниматься научным поиском, выискивать скрытые тенденции. Для этого нужен все же многомерный куб, а не генератор отчетов.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335887
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Volj

Нет просто из списка возможных измерений выбираются те, которые нужны для текущего отчета, и по ним автоматом строится GROUP BY SQL выражение, обычно с суммой. Ну и плюс можно иерархии прописывать между измерениями.
Поэтому куба нет как такового, есть виртуальный куб, который рисуется после отработки SQL выражения.
Для пользователя это видится почти как настоящий OLAP.
Для вашей задачи это по-моему подходит больше.
Тем более представьте мучения пользователя, которому для каждого конкретного отчета нужны 3-4-5 измерений, а у него на экране нависают все 30
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335894
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Jurii

Для поиска скрытых закономерностей в основном нужна голова или data mining. Технология визуализации данных имеет второстепенное значение. :)
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335927
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Birkhoff:

Для пользователя это видится почти как настоящий OLAP.

Только вот время отклика будет похуже и по иерархиям не очень удобно будет перемещаться...

Тем более представьте мучения пользователя, которому для каждого конкретного отчета нужны 3-4-5 измерений, а у него на экране нависают все 30

Продвинутые OLAP-клиенты позволяют скрыть ненужные измерения, чтобы не нависали :)

Для поиска скрытых закономерностей в основном нужна голова или data mining. Технология визуализации данных имеет второстепенное значение

Голова всегда нужна :) А OLAP ценен не только визуализацией, но и наличием возможности быстро выбирать нужные оси координат отчета, быстро накладывать фильтры, и мгновенно получать отчет.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335930
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Birkhoff:

...и по ним автоматом строится GROUP BY SQL выражение, обычно с суммой
Это не совсем то что нужно... Я на 99% уверен, что потребуются, скажем, среднеквадратичные отклонения по вычисляемым показателям, которые строятся на основе нескольких уже существующих. Или сортировка по нескольким открытым последовательно измерениям. Как это сделать SQL-запросом? Опять же "исключение" членов измерений немного муторно через SQL-запросы осуществлять, а уж выброс их в графу "прочие"...

Тем более представьте мучения пользователя, которому для каждого конкретного отчета нужны 3-4-5 измерений, а у него на экране нависают все 30
Повторяюсь: если бы заранее можно было бы сказать, по каким измерениям мне нужно делать выборку, я бы сюда со своими вопросами не сунулся :/ Возможно, в будущем это прояснится, но уже после того, как по этому вопросу защитят пару кандидатских... А что касается "нависания", то для этого есть "page"-область :)

А про data mining мне бы очень хотелось узнать побольше. Есть ли продукт, в котором интегрирован OLAP и data mining? И где вообще про data mining можно почитать умного?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335957
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Volj:

А про data mining мне бы очень хотелось узнать побольше. Есть ли продукт, в котором интегрирован OLAP и data mining?

У Cognos OLAP интегрирован с data mining. Рекомендую скачать с моего сайта небольшую презентацию по теме data mining:
http://cognos.narod.ru/Scenario1.ppt

Однако самое важное для data mining - это наличие факторов и целевых функций. Чтобы получить их (вычислить на основе данных из учетной системы), надо использовать продукты класса Query & Reporting и/или OLAP. У Cognos все это есть в интегрированном виде.

Стоит упомянуть OLAP-сервер MS Analysis Services, в котором есть data mining, о вот функциональности Query & Reporting там нет, по крайней мере пока (это означает, что Вам придется вычислять факторы не визуальными средствами, а с помощью SQL-запросов, которые Вы будете писать вручную).
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335978
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Для пользователя это видится почти как настоящий OLAP.

Только вот время отклика будет похуже и по иерархиям не очень удобно будет перемещаться...


Мне кажется, что удобство перемещения по иерархиям зависит от того, как устроен клиентская часть, а не серверная.
В чём, по вашему, может быть неудобство перемещения по иерархиям?


Тем более представьте мучения пользователя, которому для каждого конкретного отчета нужны 3-4-5 измерений, а у него на экране нависают все 30

Продвинутые OLAP-клиенты позволяют скрыть ненужные измерения, чтобы не нависали :)


Я думаю, что это умеют любые клиенты, а не только продвинутые.


Я на 99% уверен, что потребуются, скажем, среднеквадратичные отклонения по вычисляемым показателям, которые строятся на основе нескольких уже существующих. Или сортировка по нескольким открытым последовательно измерениям. Как это сделать SQL-запросом? Опять же "исключение" членов измерений немного муторно через SQL-запросы осуществлять, а уж выброс их в графу "прочие"...

В этом плане у Microstrategy всё в порядке - 45 встроенных статистических функции. А уж с вычисляемыми показателями тем более (конечный пользователь имеет возможность создавать свои показатели на основе уже существующих и тут же использовать их в отчётах без необходимости перегенерации кубов). Что касается генерации SQL-запросов для этого, то он генерирует многопроходный SQL, оптимизированный под СУБД, на которой хранятся данные.
Исключение членов из измерения делается просто и выброс в графу "прочие" - тоже с помощью механизма пользовательских группировок. Более того, можно создать "виртуальное" измерение, основанное на вычисляемых показателях. Более того, оно может состоятьЭто уже обсуждалось в топике "BO: хитрое ранжирование".

Так, что здесь у ROLAP позиции довльно сильные.

Про data mining рекомендую почитать на www.megaputer.ru
И прдукты у них есть соответствующие (не только деревья решений как у Cognos).

У Microstrategy data mining отсутствует, хотя они и пишут, что он есть.
Из всех производителей OLAP, мне кажется, только у Microsoft есть что-то более-менее достойное. Но если намерения серьёзные, то лучше рассматривать решения третьих компаний (Megaputer, SPSS, SAS, Angoss etc.)

Успехов.

С уважением,
Константин Лисянский
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32335987
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Самая мощная поддержка статистики у SAS, но там своих проблем много.
А OLAP и Data Mining в одном флаконе есть и у Oracle.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32336359
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Константин:

Мне кажется, что удобство перемещения по иерархиям зависит от того, как устроен клиентская часть, а не серверная.
В чём, по вашему, может быть неудобство перемещения по иерархиям?


В продуктах класса ROLAP, насколько я знаю, не все в порядке с поддержкой несбалансированных иерархий. Например, если по одной ветви иерархии есть 3 уровня, а по другой - 6 уровней, то в серверной части PowerPlay это решается с помощью схлопывания пустых уровней иерархии. Также не уверен, что в ROLAP можно решать такие задачи как вывод в отчет всех листьев произвольного узла иерархии.

Продвинутые OLAP-клиенты позволяют скрыть ненужные измерения, чтобы не нависали :)
Я думаю, что это умеют любые клиенты, а не только продвинутые.


Если я не ошибаюсь, Вы больше знакомы с OLAP-клиентом PowerPlay. Это продвинутый клиент. А во многих других клиентах нет многого из того, что есть в PowerPlay...

В этом плане у Microstrategy всё в порядке - 45 встроенных статистических функции.

Это так, но я думаю, что г-н Volj имел в виду следующее: когда куб готов, пользователь в своем интерфейсе помечает нужные статистические показатели, они выводятся на экран, и в зависимости от изменения данных в отчете в ходе многомерного анализа - мгновенно пересчитываются.

Исключение членов из измерения делается просто и выброс в графу "прочие" - тоже с помощью механизма пользовательских группировок.

ROLAP-продукты это позволяют, но они на это не заточены! То есть сделать это не так удобно, как например создать вычисляемую строку прочие в OLAP-клиенте и скрыть остальные ненужные строки. Я уж не говорю про Парэто-фильтр "80 на 20" в OLAP-клиенте, когда пользователю не надо думать, кого запихивать в группу прочие...

У Microstrategy data mining отсутствует, хотя они и пишут, что он есть.
Из всех производителей OLAP, мне кажется, только у Microsoft есть что-то более-менее достойное


В том то и проблема, что мало у кого есть Query & Reporting, OLAP и data mining в ИНТЕГРИРОВАННОМ виде. Видимо поэтому Cognos, как аналитический продукт, во всех известных рейтингах стоит либо на первом месте, либо в тройке лидеров.
Конкуренцию Cognos теоретически могли бы составить Microsoft и Oracle, но у этих компаний другая стратегия - ориентироваться на разработчиков - чтобы в мире было много приложений на их платформах со средненьким качеством, а не одно - с высоким качеством (многочисленные разрозненные разработчики не могут инвестировать в разработку столько, сколько инвестирует крупный производитель BI-продуктов).
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32336539
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Jurii

В чём, по вашему, может быть неудобство перемещения по иерархиям?

В продуктах класса ROLAP, насколько я знаю, не все в порядке с поддержкой несбалансированных иерархий.


Попали в точку. Действительно, существуют с этим сложности.
Есть, конечно, пути решения, но, наверное, в целом, у MOLAP здесь преимущество. В особенности, у MS AS, где существует явная поддержка несбалансированных иерархий. Да, и у Cognos в этом, вроде бы, всё в порядке.

Например, если по одной ветви иерархии есть 3 уровня, а по другой - 6 уровней, то в серверной части PowerPlay это решается с помощью схлопывания пустых уровней иерархии.

А если сервер не использовать? Если куб только на клиенте, тогда как? Я уже подзабыл как это там будет.

Также не уверен, что в ROLAP можно решать такие задачи как вывод в отчет всех листьев произвольного узла иерархии.

Элементарное знание SQL даёт ответ на этот вопрос - ставим фильтр на ужел иерархии, а в отчёт выбираем любой (не только листовой) уровень иерархии.
В этом плане Cognos проигрывает, поскольку позволяет выбрать в клиенте только либо ближайших потомков, либо листовые уровни.


Если я не ошибаюсь, Вы больше знакомы с OLAP-клиентом PowerPlay. Это продвинутый клиент. А во многих других клиентах нет многого из того, что есть в PowerPlay...

Ошибаетесь, не только с PowerPlay.
PowerPlay, действительно удобен, не спорю. Только функциональности очень не хватает.

В этом плане у Microstrategy всё в порядке - 45 встроенных статистических функции.

Это так, но я думаю, что г-н Volj имел в виду следующее: когда куб готов, пользователь в своем интерфейсе помечает нужные статистические показатели, они выводятся на экран, и в зависимости от изменения данных в отчете в ходе многомерного анализа - мгновенно пересчитываются.


Возможно, он и имел это в виду - не знаю.

2 Volj - А что Вы имели в виду?

Исключение членов из измерения делается просто и выброс в графу "прочие" - тоже с помощью механизма пользовательских группировок.

ROLAP-продукты это позволяют, но они на это не заточены! То есть сделать это не так удобно, как например создать вычисляемую строку прочие в OLAP-клиенте и скрыть остальные ненужные строки. Я уж не говорю про Парэто-фильтр "80 на 20" в OLAP-клиенте, когда пользователю не надо думать, кого запихивать в группу прочие...


Всё это делается довольно легко. Не надо строить неправильных предположений. Очевидно, Вам стоит познакомиться с Microstrategy. Тогда, Ваши аргументы, что он неудобен будут звучать убедительно.
Как у Cognos с правилом 70 на 30 дела обстоят? Или с 65 на 35?
Можно это так же легко сделать?


У Microstrategy data mining отсутствует, хотя они и пишут, что он есть.
Из всех производителей OLAP, мне кажется, только у Microsoft есть что-то более-менее достойное

В том то и проблема, что мало у кого есть Query & Reporting, OLAP и data mining в ИНТЕГРИРОВАННОМ виде.


Это вполне нормально. Интегрировать всё могут себе позволить только очень крупные компании.
Интегрированные решения имеют компании IBM, Oracle, NCR, то есть крупнейшие игроки на рынке хранилищ данных.

К вопросу о data mining - а какие у Cognos продукты класса data mining?
(подсказка: 4Thought не называть - нейронные сети, как ни странно, не относятся к data mining).

Видимо поэтому Cognos, как аналитический продукт, во всех известных рейтингах стоит либо на первом месте, либо в тройке лидеров.

Насчёт интегрированности решения Cognos - я бы всё-таки постеснялся. Разрозненные несовместимые метаданные в нескольких продуктах и никакой возможности ими нормально управлять. У них только в последнее время наметились тенденции на интеграцию. Но, не знаю, как они смогут этот зоопарк интегрировать.
Практический пример - Вы можете точно сказать в каких отчётах Impromptu и кубах PowerPlay участвуют данные из определённой таблицы базы данных?
Сколько Вам понадобится времени для ответа на этот вопрос?

Конкуренцию Cognos теоретически могли бы составить Microsoft и Oracle, но у этих компаний другая стратегия - ориентироваться на разработчиков - чтобы в мире было много приложений на их платформах со средненьким качеством, а не одно - с высоким качеством (многочисленные разрозненные разработчики не могут инвестировать в разработку столько, сколько инвестирует крупный производитель BI-продуктов).

Как показывает практика, конкуренции с Microsoft не выдерживает ни одна маленькая компания (каковой является Cognos, да и Microstrategy и BusinessObjects). С Microsoft надо дружить, а не конкурировать, но всё равно сожрут :)



С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32336597
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я на 99% уверен, что потребуются, скажем, среднеквадратичные отклонения по вычисляемым показателям, которые строятся на основе нескольких уже существующих.
... пользователь в своем интерфейсе помечает нужные статистические показатели, они выводятся на экран, и в зависимости от изменения данных в отчете в ходе многомерного анализа - мгновенно пересчитываются


Я име в виду две задачки, одну попроще, другую посложнее... Как известно, среднеквадратичное отклонение есть функция от одномерного массива чисел (будем брать OLAP-толкование). В OLAP в качестве этого массива используются данные, саггрегированные в одну ячейку куба, отображаемого в клиенте. Так вот:
нужно, как минимум, уметь строить новые вычисляемые показатели на основе вычисленных значений среднеквадратичных отклонений существующих в таблице фактов показателей.

как максимум, нужно уметь строить собственные вычисляемые показатели на основе существующих в таблице фактов, а в OLAP-клиенте показывать уже ИХ среднеквадратичное отклонение.
Ну и, разумеется, делать все вышеописанное достаточно быстро (до 10 секунд). В принципе, 250 000 - это действительно небольшой объем для такого рода вычислений, мгновенности я не требую :)

Всем:
Мне, пока я писал это, пришел в голову интересный вопрос:
Допустим, в таблице фактов есть несколько записей, попадающих в одну и ту же ячейку куба. Как считается в этом случае среднеквадратичное отклоенение? Как функция от нескольких значений (реально лежащих в табл фактов) или как функция от аггрегированного значения?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32336699
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Константин

Почему нейросети не относятся к Data Mining?

2 Volj

В MOLAP не бывает, чтобы в одну ячейку несколько записей попадали. Данные должн ылибо агрегироваться по какому то принципу, либо будет храниться одно из значений. Либо нужно заводить еще одно измерение.
А в ROLAP такое часто бывает, но тоже в итоге на эти несколько записей применяется какая агрегация.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32336708
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Volj

Кстати функция вычисления среднеквадратичного отклонения насколько я помню зашита в Oracle SQL и значить ее можно использовать в любом SQL выражении и следовательно в любом ROLAP клиенте.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32336721
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Birkhoff:

В MOLAP не бывает, чтобы в одну ячейку несколько записей попадали.
Но в реальности-то сплошь и рядом :(( А среднеквадратичное отклонение (и медиана, да и многе другие статфункции, наверное), как нетрудно убедиться, при этом совсем другие получаются... И, грубо выражаясь, толку от этих функций, если они считают аггрегированное значение, просто никакого. Фикция, а не функция. Могу примеры привести, если интересует... Извините, это не наезд, просто это плохо очень тогда.

2 Константин: Еще раз спасибо за ценную инф и ссылки. Здорово!
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32336762
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Константин:

В особенности, у MS AS, где существует явная поддержка несбалансированных иерархий.

Этот вопрос в свое время детально обсуждался. У MS AS есть поддержка в явном виде структуры ID, Name, Parent_ID, но работает она реально на не очень ветвистых измерениях (до 5 тысяч листьев все OK, до 50 тысяч - еще можно, но более 50 тысяч - тормозит). Схлопывания пустых уровней иерархии у MS AS не было обнаружено. Таким образом, у Cognos работа с несбалансированными иерархиями иногда менее удобна, чем в MS AS, но зато - более универсальна (в случаях когда иерархия хранится не в трех полях, а по-другому, или на больших объемах данных).

А если сервер не использовать? Если куб только на клиенте, тогда как? Я уже подзабыл как это там будет.

Вы наверное спрашиваете про минимальную конфигурацию PowerPlay User? Если да - то ее функциональность и мощность мало отличается от более серьезных серверных конфигураций PowerPlay. Схлопывание уровней в PPU имеется.

PowerPlay, действительно удобен, не спорю. Только функциональности очень не хватает.

Как-то г-н GoodLeo перечислил свои требования к OLAP-клиентам, и PowerPlay наиболее полно соответствует этим требованиям. Если Вы не находите в OLAP-продукте PowerPlay той функциональности, которая есть в знакомых Вам продуктах класса Query & Reporting, то такая функциональность есть в продукте Cognos Impromptu, который обычно используется в связке с PowerPlay.

Очевидно, Вам стоит познакомиться с Microstrategy

С удовольствием это сделаю, как только подвернется такая возможность :)

Как у Cognos с правилом 70 на 30 дела обстоят? Или с 65 на 35?
Можно это так же легко сделать?


Это можно делать либо в Impromptu (по аналогии с BusinessObjects или Microstrategy), либо в PowerPlay, используя функцию "Кумулятивный Процент от базы".

Интегрировать всё могут себе позволить только очень крупные компании.
Интегрированные решения имеют компании IBM, Oracle, NCR, то есть крупнейшие игроки на рынке хранилищ данных.


Я думаю у нас разные понятия о термине интегрированность. Вы хотите сказать, что SQL-запросы, подготовленные в Oracle Discoverer можно использовать как таблицы фактов для Oracle Express? В том то и весь кайф, что результаты работы Cognos Impromptu могут быть сохранены в виде виртуальной вьюшки, и эта вьюшка служит таблицей фактов для проектирования кубов PowerPlay и источником данных для data mining в Scenario. А из куба PowerPlay ожно настроить drill through через эту вьюшку, причем визуальными средствами.

К вопросу о data mining - а какие у Cognos продукты класса data mining?
(подсказка: 4Thought не называть - нейронные сети, как ни странно, не относятся к data mining).


Сами по себе нейронные сети может и не относятся к Data Mining, но 4Thought - это продукт, позволяющий анализировать влияние факторов на целевые функции - на мой взгляд это чистый data mining. Ну и еще к data mining относится вышеупомянутый продукт Scenario.

Насчёт интегрированности решения Cognos - я бы всё-таки постеснялся.
Практический пример - Вы можете точно сказать в каких отчётах Impromptu и кубах PowerPlay участвуют данные из определённой таблицы базы данных?
Сколько Вам понадобится времени для ответа на этот вопрос?


На практике интеграция Cognos работает через виртуальные вьюшки. И поскольку продукты Cognos умеют работать напрямую с OLTP, структура которой меняется редко - отвечать на Ваш вопрос тоже приходится редко. А те продукты, которые требуют единое ХД (MS AS и все продукты ROLAP/Query & Reporting) - действительно нуждаются в быстрых ответах на Ваш вопрос, поскольку ХД изменяется/дорабатывается часто.

Как показывает практика, конкуренции с Microsoft не выдерживает ни одна маленькая компания (каковой является Cognos, да и Microstrategy и BusinessObjects). С Microsoft надо дружить, а не конкурировать, но всё равно сожрут :)

Теоретически Вы правы, но на практике наблюдается обратное, причем благодаря человеческому фактору, против которого ничего не сделаешь :)
Например выход MS AS - несколько лет назад я думал, что это серьезный конкурент для Cognos. И вот, MS AS вошел на массовый рынок, среднее качество внедрений его - невысокое, поскольку продукт сложный и не очень дружественный, а экспертов по нему - мало. Аналогичный случай с системой Аксапта - маркетинговая раскрутка - очень хорошая, а вот на практике при внедрениях бывают громкие провалы... Я бы на месте Microsoft попытался бы скупить всех конкурентов, но видимо это тоже не так просто (либо будет возражать Антимонопольный комитет, либо сами конкуренты не продадутся :)

А что касается дружбы с Microsoft, то у Cognos это имеется (прямые драйверы к MS SQL, работа напрямую с Excel, Access, PowerPlay User - это в том числе OLAP-клиент для MS AS, Cognos поддерживает настройки безопасности Active Directory Server, использует MS Internet Explorer как Web-клиента и т.п.).
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32336849
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Jurii

Кстати в Discoverer можно во первых нажать одну кнопку и по сгенеренной в данный момент странице построится база данных экспресс с кубом.
А во вторых никто не мешает использовать сгенеренный в Dsicoverer SQL для загрузки кубов. Или я не понял, что ты имел в виду?

2 Volj
Давайте вы приведете какой нибудь очень простой пример и обсудим какими технологиями с ним стоит работать а какими нет?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32337102
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Birkhoff:

Давайте вы приведете какой нибудь очень простой пример и обсудим какими технологиями с ним стоит работать а какими нет?
Пример не мой (чтобы объяснить, что нужно делать мне, требуется слишком много спецтеримнов использовать :) ) но, по моему, актуальный:

Поиск любых отклонений от среднестатистических величин и выявление закономерностей, присущих этому отклонению (в этих методиках используются как раз медианы и среднеквадратичные отклонения).
Из жизни: поиск испорченных транков в телефонии и выявление закономерностей "падения" разговора, поиск ошибок операторов при вводе и выявление закономерностей появления ошибок (может, какой-то оператор постоянно ошибки лепит, и его пора увольнять) и т.д...
Куб организован так, что есть несколько "значащих" измерений, и временная координата. Временная координата, естественно, образует еще какие-то измерения, допустим, день недели недели и час (в качестве примера). Большая детализация просто не нужна. А записи добавляются, допустим, каждые несколько секунд. Разумеется, получается, что одной ячейке куба может, теоретически, соответствовать произвольное к-во записей.
А в качестве меры для статистических функций мне важны не усредненные данные в этой ячейке и не суммированные, а именно те, которые лежат в таблице фактов, иначе я не смогу отследить резкие всплески ошибок на уровне общего "фона", который является более-менее постоянным.
Достаточно?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32337116
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Birkhoff:

Добавление: вообще, возьмите любую задачу, где идет работа со статистическими функциями и где они действительно необходимы, и их использование не является придурью аналитика (что бывает ;-) ).
Вот и будет вам пример :)

Ведь вы не будете отрицать, надеюсь, что в случае работы с аггрегированными значениями (саггрегированными любой функцией), статфункции выдадут вам неверный результат?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32337125
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Volj
Нет, я понимаю что такое реальные задачи.
Просто интересно взять конкретную задачку чтобы все ее представляли и рассмотреть какие ограничения есть на нее при разных подходах.
Например берем тесовую табличку из 10 записей с такими то колонками и пытаемся разными средствами решить задачу по подсчету отклонения, причем эталонный результат известен.

Если можно написать запрос который правильно считает отклонение, то это значит что задача в принципе решаема, проблема может быть в том что вы хотите чтобы она решалась именно при тех ограничениях, которые на нее накладываются. Думаю что несколько записей в одну ячейку появляются только тогда, когда недодумана структура куба. Наверняка есть еще что то что отличает одну запись от другой. Может быть время? Чем они отличаются в самой базе?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32337129
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Birkhoff: Мне кажется, настало время новую тему открыть :) Киньте туда свои ответы, plz
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32337140
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Volj

Мне кажется что это вы можете нам подкинуть интересный пример :)
Вам виднее, раз вы вообще эту тему открыли.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32337392
Дядя Федор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Jurii писал:Схлопывания пустых уровней иерархии у MS AS не было обнаружено.

Наверное, плохо искали. Можно прятать уровни с пустым именем, с именем родителя, или только "единственных детей" с пустым именем или именем родителя. Разве это не оно?
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32337629
Tsaryov S
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Volj
автор писал:А записи добавляются, допустим, каждые несколько секунд
В вашей задаче не ясно, нужно ли мониторить данные в реальном времени, или достаточно иметь для анализа несколько устаревшие (за последний час или день) данные. Этот вопрос серьезно может повлиять на выбор ПО. И потом, при такой скорости добавления предпосылка о 250000 записей в таблице фактов скоро станет неверной.
автор писал:Поиск любых отклонений от среднестатистических величин и выявление закономерностей
Все-таки, известно, на какие вопросы вы хотите найти ответ или нет? Такое ощущение, что задача плохо поставлена, поэтому вы хотите использовать OLAP как средство быстрого построения нерегламентированных запросов. Если есть модель, как решать задачу, некий алгоритм, то достаточно посчитать программно некую функцию (коэфф. ошибочной работы телефониста, грубо говоря) и найти самых тупых телефонистов и их уволить, а в следующий раз посчитать снова через месяц. При этом никакие кубы не нужны.
автор писал:Ведь вы не будете отрицать, надеюсь, что в случае работы с аггрегированными значениями (саггрегированными любой функцией), статфункции выдадут вам неверный результат?
Я буду. Сгласен с теми, кто говорит, что в каждая ячейка определяется уникальными значениями измерений. Любая статфункция выполняется на множестве, а следовательно, является функцией агрегации. И если уж использовать OLAP в вашем случае, то именно с такими функциями агрегации.
Успехов.
...
Рейтинг: 0 / 0
30 измерений в таблице фактов
    #32337739
Volj
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Tsaryov S:

В первых двух вопросах Вы немного спутали мухи с котлетами - прочитайте мое сообщение от 18:03 повнимательнее, и тогда Вам станет понятно, что пример, который я привожу для г-на Birkhoff, не имеет ничего общего с моей реальной задачей. Посему комментировать два первых Ваши вопроса, я думаю, не нужно.

По третьему вопросу см. тему "расчет статфункций в перенасыщенных кубах", я отвечу Вам там.
...
Рейтинг: 0 / 0
48 сообщений из 48, показаны все 2 страниц
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / 30 измерений в таблице фактов
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]