powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / 40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
37 сообщений из 37, показаны все 2 страниц
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32412559
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Интересная тенденция. Сразу целый ряд наших клиентов преодолели рубеж в 35-40 миллионов фактов в MS AS. Речь идет скорее о средних компаниях (1000-2000 человек персонала), в нефтянке и энергетике уже нормально иметь матричное хранилище на 2,5 млрд. элементов.
Ни каких проблем с производительностью не было отмечено, точнее там где мы выполняли работы.
Еще целый ряд корп. внедрений MS AS проявился в виду того, что разработчики обратились к нам из-за того, что MS AS фактически ушел в "даун" от объемов свыше 30 млн. фактов. Не помогали даже серверные системы стоимостью $20000-$50000 на RAID10. Особенно это касается тех, кто применял маркетинговые исследования на MS AS, т.е. плотно использовал distinct count. Эта мера предагрегируется в MS AS, но требует тонкого тюнинга сервера.
Выполнение нами тюнинга приводило к росту производительности примерно такого плана:
время отклика на построение OLAP-отчета в MS Excel XP с 180 секунд до 2 секунд, т.е. ускорение почти в 100 раз.
время процессирования OLAP-кубов (30-40 млн. фактов) с 50 часов до 4х часов (без использования инкрементального DWH) и до 5 минут с использованием инкременталки, т.е. ускорение более чем в 100 раз.

Вывод: железо не спасает, нужен хороший тюнинг.

Рост объемов данных в обсуждаемых компания происходит нелинейно и напоминает скорее степенную функцию. Очевидно что уже в ближайшие 1-2 года MS AS будет там оперировать с 100-150 млн. фактов.

Вывод: Очень важно выполнить оптимизации до того как данные окончательно обвалят систему. К сожалению радикальное ускорение производительности часто приходится делать путем переделки структур кубов и хранилищ. Лучше раньше, чем позже.

Беру смелость предсказать, что ожидаемое повсеместное внедрение матричных методов калькуляции производственных себестоимостей и других структур Доходов/Расходов приведет к взрывообразному увеличению хранилищ данных. Матричный метод очень хорош и удобен для экономистов, но фактически приводит к структурам, размер которых КВАДРАТИЧНО зависит от числа транзакций между ЭО-ЭЗ.
Современные OLAP-сервера и даже их следующее поколение не в состоянии оперировать с матричными хранилищами в 2-5 млрд. элементов (учтем что там еще нужно делать расчеты и не просто крутить обороты). Посему очень важно иметь для оперирования таким DWH специальный матричный модуль предназначенный для оперирования сверхбольшими матрицами, в том числе с поддержкой их компрессии. В OLAP-сервер должны уходить только Data Mart из такого хранилища.

Вывод: надо быть готовым в ближайшие 1-2 года оперировать в MS AS с матричными хранилищами в несколько миллиардов элементов.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32412574
Фотография Валек
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мощно задвинул
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32412584
Rex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Очень интересно послушать про (пред)агрегацию distinct count.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32412616
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Mne tozh interesno poslushat.

Gospodin Ivanov ne podelitis vashimi soobrazheniyami li?
Chto vi podrozumevaete pod "хороший тюнинг"?

Pod tuning chasche podrozumevayutsya igra technicheskimi nastroikami a ne meropriyatiya na etape dizaina sistemi.

Ne dumayu, chto vi reshaete problemu distict count s pomoschyu technicheskih nastroek, tut bez kardinalnih meropriyatii v dizaine resheniya na moi vzglyad ne oboitis.
Tak chto luchshe nazivat eto dizain, "zatochennii" pod distinct count, chem tuning.

No mne vse ravno interesno poslushat vasi misli "po-suschestvu", a ne goluyu deklaraciyu dostignutih rezultatov.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32412656
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир,

уже нормально иметь матричное хранилище на 2,5 млрд. элементов.

Ты имеешь в виду что это 2.5 миллиарда записей в таблице фактов, или 2.5 миллиарда ячеек в кубе?
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32412741
guffi
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Вывод: надо быть готовым в ближайшие 1-2 года оперировать в MS AS с матричными хранилищами в несколько миллиардов элементов.

А вот вывод-то и неверный.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32412954
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Как делается тюнинг MS AS написано в MSDN, точнее там даны основы, советую всем прочитать, повторятся нет смыла. Microsoft сравнительно недавно обновил базу знаний.
Вообще говоря, специалистам из Microsoft стоит принести свои извинения за невнятную позицию относительно темы distinct count. Почти год Micrsoft не мог даже внятно ответить на вопрос "агрегаты distinct count настоящие или виртуальные?".
Этот вопрос мы с Юрой обсуждали на OLAP.ru и насколько я помню, г-н Мамаев приводил высказывание центрального эксперта по OLAP в Microsoft Russia г-на Шулейнина, который на выступлении среди разработчиков утверждал, что агрегация distict count виртуальная. Сам я там не был, так что цитирую со слов "свидетелей".
Теперь правда открывалась. MS AS единственный OLAP-сервер в мире умеющий делать настоящие агрегаты distinct count, но эта агрегация стала работоспособной только после SP и требуется настоящее шаманство для оптимизации решений на distinct count.
Частичное руководство "шамана по distinct count" вышло в MSDN.

2Юра. Ты в принципе примерял клиента Cognos к MS AS именно к нашему матричному решению для Лукойла. И ты смотришь в точку.
Если ты заметил, когда я говорю о матричных DWH, я говорю о элементах, а не о фактах. Матрица это не таблица, поэтому более правильно говорить об элементах. Только после трансляции матрицы в различные таблицы получаются обычные факты. Поскольку трансляция делается всегда частичная в определенном разрезе, то фактов уже выходит не так много (десятки миллионов). Но сама матрица даже для небольшого центра в нефтянке не менее 200 млн. элементов (15 тыс. закрываемых ЭО-ЭЗ).

PS. К слову интересно сколько сейчас фактов в российских OLAP-базах от Oracle, Cognos и Microstrategy и Hyperion?
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32413110
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир,

Если ты заметил, когда я говорю о матричных DWH, я говорю о элементах, а не о фактах. Матрица это не таблица, поэтому более правильно говорить об элементах.
сама матрица даже для небольшого центра в нефтянке не менее 200 млн. элементов

Слова "нефтянка" и "200 млн. элементов" звучат красиво, но хочется дойти до истины, определиться с понятиями :)
Например, у нас есть массив данных - 1000 записей, в каждой записи - 30 полей под измерения (в каждом поле уникальное символьное значение) и одно поле под показатель (числовое). То есть куб с 30 измерениями, в каждом из которых - 1000 элементов. Ячеек в кубе соответственно - 10 в тридцатой степени... Можно ли, выражаясь твоим языком, сказать, что в этом кубе 10 в тридцатой степени элементов?

PS. К слову интересно сколько сейчас фактов в российских OLAP-базах от Oracle, Cognos и Microstrategy и Hyperion?

В моей практике внедрения OLAP-сервера Cognos PowerPlay самые большие базы данных встречались в розничных торговых сетях. Максимальное количество записей, которые я закачивал в OLAP-куб чуть больше 100 миллионов. Запас прочности - десятикратный (Cognos декларирует возможность закачки в куб в версии PowerPlay 7.1 до 1 миллиарда записей, и эта условная планка в каждой версии повышается).

Насчет других OLAP-продуктов тоже было бы интересно услышать реальные цифры. Только в первую очередь интересуют именно кубы, а не те ситуации, когда Oracle Discoverer или Microstrategy визуальными средствами сформировали SQL-запрос, который выполняется реляционным сервером...
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32413127
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
P.S.

То есть куб с 30 измерениями, в каждом из которых - 1000 элементов. Ячеек в кубе соответственно - 10 в тридцатой степени...

Прошу прощения, немного ошибся - ячеек в таком кубе не 10 в тридцатой степени, а 10 в девяностой степени ( 10 ^ 90 :)
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32413194
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Vladimir

Как делается тюнинг MS AS написано в MSDN, точнее там даны основы, советую всем прочитать, повторятся нет смыла. Microsoft сравнительно недавно обновил базу знаний.

A ssilochkoi ne podelites? Poslednee chto ya nashel o distinct count eto
http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dnsql2k/html/sql_olapdistinctcount.asp

no eto mart proshlogo goda.


Частичное руководство "шамана по distinct count" вышло в MSDN.

eto chto li?
http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dnolap/html/distinct2.asp
tak eto star'e 1999 goda.

distinct count агрегация стала работоспособной только после SP
kakogo? sp3? sp2?
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32413211
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Vladimir

a chto takoe Matrichnoe hranilische? Razve eto termin iz businness prilozhenii? Vam SCD ne ponravilos - slozhno dlya vas , a tut vi o matrichnii hranilischah razgovor podinyali, ili "millioni" v fact table zvuchat ne tak kruto, kak kolichestvo elementov matrici.
Tak tut technicheskii forum, a ne zagruzka potencialnih zakazchikov, zachem pil v glaza puskat.

Voovbschem skaldivaetsya vpechatlenie, chto vi po-delu to i skazat nichego ne v sostoyanii, tolko goliie zifri o razmerah baz i vremeni otklika.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32413470
Rex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир,
то, что метрики Distinct Count физического характера было понятно и так всем, кто хоть раз их использовал. Что никоим образом не отменяет связанных с ними проблем. В частности, невозможности получать данные по произвольным диапазонам измерений.
Аудитория ждёт информации по тюнингу и продвинутой (пред)агрегации.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32413570
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги, мои искрение извинения но за недостатком времени я не смогу все помочь. Поэтому отвечаю выборочно и с задержками.
Поскольку нет желания вписывать в форум целый учебный курс по MS AS, могу предложить сделать мастер-класс и пригласить туда желающих.
Кому нужно, пишите на Ivanov-soft@inbox.ru, стоимость будет на уровне компенсации аренды класса – наверное $200.
Насчет матричных вычислений в экономике это не совсем тема форума, т.к. OLAP это только компонент таких решений. Скорее всего будет в ближайшее время специализированный семинар, там и обсудим.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32413599
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Ivanov.

Vi kak vsegda v svoem stile - eto moe Know-How i ya ego za "tak" ne rasskazhu.

A mozhet i rassazivat to ne chego.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32413783
Rex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 backfire
Скоре всего так оно и есть. Голословные рекламные лозунги и сомнительные предложения.

2 Владимир Иванов
Вы ничего не перепутали? Это форум, здесь можно выступить, раз уж для себя ничего не надо и мастер-класс по себестоимости. Вряд ли дольше получится. А конкретную ссылку в MSDN тиснуть - вообще минута.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32413978
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Rex:

В частности, невозможности получать данные по произвольным диапазонам измерений.

Правильно ли я понимаю, что Вы имеете в виду ситуацию, когда показатель на основе Distinct Count (например, Количество клиентов) легко считается для каждого дня, месяца, года, но его нельзя посчитать за произвольный период времени с даты по дату?
Кстати в таких ситуациях все равно надо делать расчет налету...
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32414089
Rex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Jurii
Совершенно верно. Собственно, это самое интригующее в сообщении Владимира Иванова - 100 кратное уменьшение времени отклика.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32414128
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Rex:

Совершенно верно. Собственно, это самое интригующее в сообщении Владимира Иванова - 100 кратное уменьшение времени отклика.

Против подобной комбинаторики не попрешь... Вариантов выбора произвольных начальных и конечных значений для отчета - бесконечное количество, и я сомневаюсь, что можно просчитать агрегаты для всех комбинаций.
Может быть Владимир имел в виду, что агрегаты вычисляются только для ячеек куба, а в остальных случаях расчет производится налету?
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32414141
еще интересно, в какой столовой Лукойла внедрено сие :)
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32414186
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да, ребята. Еще раз мои извинения тем кого я случайно задел, обидел или спровоцировал на неадакватную реакцию.
Потенциальным клиентам я готов продемонстрировать решения по калькуляциям масштаба всего производственного комплекса Лукойл-Коми или Лукойл-Пермь, а также отзывы клиентов по 100 кратному повышению производительности в том числе с визитом на место.
Но все это не касается потенциальных конкурентов. Им еще раз мои извинения и мой отказ как либо аргументировать мою позицию. Мотивация сторон делает спор бессмысленным.
"На слабо", ценные знания не отдают. Халява кончилась. За сим откланиваюсь, к сожалению действительно не в то место попал, т.к. по волнующим меня проблемам (см. задачу о дебиторке) ни одного дельного совета не получил. Обмен знаниями не бывает одностронним, хочу делюсь, хочу не делюсь. Без обид.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32414220
Udavi
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Не в тему. Модератор прости.
А почему так похоже?

http://www.sql.ru/articles/articles.aspx
http://www.microsoftproject.ru/articles.phtml

Это что один и тот же сайт?
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32414406
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Ivanov

Потенциальным клиентам я готов продемонстрировать решения по калькуляциям масштаба всего производственного комплекса Лукойл-Коми или Лукойл-Пермь, а также отзывы клиентов по 100 кратному повышению производительности в том числе с визитом на место.
Но все это не касается потенциальных конкурентов. Им еще раз мои извинения и мой отказ как либо аргументировать мою позицию. Мотивация сторон делает спор бессмысленным.
"На слабо", ценные знания не отдают. Халява кончилась


Vi navernoe ne tuda tochno zabreli.
Zdes net i vryad li budut vashi klienti - tak chto samoreklama zdes neumestna.
Zdes technicheski forum, publiku interesuet MS AS i Cognos, i nikomu net dela do vashih Ole-Lukoilov i Saturnov s Yupiterami.

Esli vi boites konkurentov, to u zachem voobsche etot forum poseschat.

Berite primer s Glory, Gladchenko i Deda Mаздая.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32414553
GoodLeo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Владимир Иванов:
"...На слабо", ценные знания не отдают. Халява кончилась. ....по волнующим меня проблемам (см. задачу о дебиторке) ни одного дельного совета не получил. ..."
Владимир! Извините, но почему Вам должны предоставлять информацию за дорма, а от вас видеть постоянно фигу?
Скажите, какой дельный совет Вы хоть раз предоставили в форуме, акромя рекламных лозунгов в целях завлечь народ на мастер-класс?
Я не сомневаюсь что вы хороший специалист по ОЛАП, но в форумах ведут себя по другому. Форум предназначен для взаимопомощи, а иногда и не для взаимо, а просто - помощи, так как по ОЛАПу спецов не много и не надо пологать что здесь сидят одни конкуренты и ждут от вас ценной инфы.
Сюда заходят как правило те, кто не очень силён в ОЛАПе и ждут ценного совета. И Вы это прекрасно понимаете и используете такие некрасивые методы, прекрываетесь всякими опасениями о конкурентах, для завлечения на семинар.
Я бы Вас, на месте модератора, уже давно бы обвинил в нецелевом использовании форума :)
Так что действительно, Вы не туда попали, как и некоторые другие продавцы мыслей....
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32414765
Фотография AnS1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dnsql2k/html/sql_olapdistinctcount.asp

но Владимир прав - время халявной инфы заканчивается. Последнее время я замечаю, что "поделиться информацией" имеет характер игры в одни ворота.
А может я старею и становлюсь жадным?
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32415081
Rex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 AnS1
Смотря как и чем делиться. Настоящий профи не зажмёт инфу, т.к. она только придаст ему веса и уважения в сообществе. А в данном случае мы имеем дело с банальной рекламой консультационных услуг. Причём качество их довольно сомнительно, ибо г-н Владимир Иванов не даёт даже намёка на свой уровень владения предметом, если не считать широко расставленных пальцев и упоминания некоего чудодейственного тюнинга.
Полностью согласен с backfire.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32417511
DmitryS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Я прошу прощения - разобраться в терминологии лень. Могу сказать, что на практике встречались кубы с 80 млн. фактов (MS AS) и порядка 25 измерений (в среднем "по больнице" - 200 членов). С DC мерами в т.ч. Работают вполне адекватно. Действительно очень много с точки зрения производительности дали BOL и MSDN. Ссылок не помню, так как читалось довольно давно.
По общим вещам: на мой взгляд, надо стремиться к
а) максимальному упрощению запросов, откидываемых при процессинге;
б) избегании беготни по огромным измерениям;
в) перетряски PC измерений.
Это то, что бьёт очень сильно.
Каким образом? Рубить требования, проектировать хранилище (как следствие, закачку - это значительно может уменьшить сложность MDX-выражений), играться с разделяемыми измерениями, извращаться c MDX - дело конкретного проекта.
Владимир элементарно прав в том, что написать за один пост "как сделать всех счастливыми" невозможно. Попытка обобщения проблем есть в книжках Споффорда и Кимбала. Всех ли это лечит?
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32417538
Моша
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
To: backfire

> A ssilochkoi ne podelites? Poslednee chto ya nashel o distinct count eto

Рекоммендую также прочитать
http://www.microsoft.com/technet/treeview/default.asp?url=/technet/prodtechnol/sql/maintain/optimize/ANSvcsPG.asp

Опубликованный в июне 2003. Это вообще полезная whitepaper про оптимизации производительности и там есть специальный раздел посвющенный Distinct Count.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32417540
DmitryS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
А что касается "коммерциализованности" форума, то тут проблема следующего характера: вопросы делятся на три категории:
1. Вопросы "ленивые". А как ещё назвать вопросы, которые сводятся к тому, чтобы получить в ответ название стандартной MDXовской функции? Проще, зачастую BOL почитать. Да и быстрее. Типичный вопрос - про ValidMeasure например. На такие мне, если честно, отвечать не хочется.
2. Вопросы "сложные". Вываливается громадный MDX или описание проблемы с просьбой помочь. Когда есть настроение и время голову поломать - тогда можно. А так - нужно же, продумать, желательно проверить etc.
3. Вопросы технические - " у меня выкинуло такую -то ошибку". Тут как повезёт - либо сталкивался, либо - нет.
Т.е., либо вопрос идиотский и раздражает, что автор ленится сам его решить, либо вопрос сложный и нужно время, чтобы проверить. Тут дело в специфике отрасли и продукта в частности. На мой взгляд, тут творчества, что ли больше, чем в обычных транзакционных системах. Там больше техник:-)
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32417657
Mosha
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Да еще забыл добавить, что большинство проблем связанных с Distinct Count затронутых в этой дискуссии решено в следующей версии Analysis Services под кодовым названием Yukon.
Цитирую информацию опубликованную на Technet по ссылке
http://www.microsoft.com/technet/treeview/default.asp?url=/technet/prodtechnol/sql/next/DWSQLSY.asp

1. Производительность

Query performance for Distinct Count measures is improved by up to several orders of magnitude, for appropriately partitioned cubes.

2. Проблема с агрегированием по произвольным диапазонам

Rex пишет:
> Что никоим образом не отменяет связанных с ними проблем. В частности, невозможности получать данные по произвольным диапазонам измерений.
Аудитория ждёт информации по тюнингу и продвинутой (пред)агрегации.

Jurii пишет:
> Правильно ли я понимаю, что Вы имеете в виду ситуацию, когда показатель на основе Distinct Count (например, Количество клиентов) легко считается для каждого дня, месяца, года, но его нельзя посчитать за произвольный период времени с даты по дату?

Technet отвечает:
Distinct count measures are also much improved in “Yukon”. A distinct count measure can now be defined on string data, and queries can be defined that will perform a Distinct Count over an arbitrary set. Analysis Services 2000 performed distinct counts only on the predefined hierarchical structure.

Также я бы хотел ответить Владимиру на следующие комментарии:

> Вообще говоря, специалистам из Microsoft стоит принести свои извинения за невнятную позицию относительно темы distinct count. Почти год Micrsoft не мог даже внятно ответить на вопрос "агрегаты distinct count настоящие или виртуальные?".

Приношу извинения за документацию если она не отвечает внятно на этот вопрос.

> Теперь правда открывалась. MS AS единственный OLAP-сервер в мире умеющий делать настоящие агрегаты distinct count, но эта агрегация стала работоспособной только после SP

Я бы хотел немножко поправить это высказывание. Агрегации distinct count были "настоящими" с момента выпуска продукта. Я предполагаю что Владимир столкнулся с багом имплементации в какой-то определенной ситуации и этот баг был починен в одном из Service Packs.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32417713
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
То Моша.

Если вы Моша Пасуманский, то я очень очень рад, что на нашему скромненькому форуму уделил внимание один из ведущих разработчиков МS AS (в том числе и его будущей версии)
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32417726
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
То Моша

Да еще забыл добавить, что большинство проблем связанных с Distinct Count затронутых в этой дискуссии решено в следующей версии Analysis Services под кодовым названием Yukon.

Лучше какие не решены? Чтоб нам не сильно расслаблятся

1. Производительность

Query performance for Distinct Count measures is improved by up to several orders of magnitude, for appropriately partitioned cubes.


Разделы куба останутся все так же привилегией владельцев Entrprise версии или будут доступны простым смертным. (Из версии с красным штампиком канадской провинции на заставке это не определить :-( )

2. Проблема с агрегированием по произвольным диапазонам

Ну наконец-то, а то МДХ такю лажу в 2К версии поставляет - он просто арифметически суммирует значение мер для элементов slicer, а не считает distinct count, для slicer по некольким элементам одного измерения. Из-за этого мы были вынуждены отказаться от distinct count вообще, ибо для MDX клиента долно быть абослютно параллельно на какой аггрегационной функции базируется мера. Не говоря уже о том, что половина функции MDX принципиально не работает c distinct count мерами.

В итоге в версии 2К мы решаем проблемы с distinct count на уровне DWH, слава богу у SQL проблем c distinct count нет, а в OLAP грузим уже предрасчитанные данные из DWH.

Technet отвечает:
Distinct count measures are also much improved in “Yukon”. A distinct count measure can now be defined on string data .
Правильно. Не все же используют в качестве ключей int(bigint), есть кто и char, а есть кто и GUID (MS CRM).

Приношу извинения за документацию если она не отвечает внятно на этот вопрос.

Очень бы хотелось, чтобы в Yukon, уровень документации по OLAP достиг как минимум уровня доки по SQL.

Теперь позвольте пару слов без протокола.:-) По результатам знакомства с программой у которой красный штампик канадской провинции на заставке.

ADOMD.NET. Как я понимаю работать с объектом Catalog и все что в нем есть (CubeDefs и далее ...) еще более самоубийственно с точи зрения производительности чем в нынешней версии MS AS и надо переориентироваться на stateless MDX. Или я не прав.

Есть еще море вопросов по Канадской провинции, но это тема отдельного топика или если вы позволите e-mail.
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32417985
Ирина
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
backfire
ADOMD.NET. Как я понимаю работать с объектом Catalog и все что в нем есть (CubeDefs и далее ...) еще более самоубийственно с точи зрения производительности чем в нынешней версии MS AS и надо переориентироваться на stateless MDX. Или я не прав.



Смотря какие об'екты Вас интересуют, если кубы, измерения, уровни, то однозначно нужно пользовать об'ектами метаданных. Если members, то вопрос спорный, зависит от размера уровня. Скоро выйдет новая версия Adomd.Net и в ней будет больше возможностей избежать самоубийства и на members, правда можно поспорить, что зная свои данные Вы сможете послать лучший MDX запрос.

Ирина


----------------------------------------------------
This posting is provided "AS IS" with no warranties, and confers no rights
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32417996
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
То Ирина

Я имел ввиду members и user defined properties.
Что вы поразумеваете под скоро? Вместе с Юконом (через полтора-два года) или по-раньше?

Что поразумевает adomd.net при работе с MS AS 2K - warpper вокуг тормозного OLEDB MD, тогда чем он будет лучше Interop для ADOMD? Своевольностью и непредсказуемостью Pivot Table Services мы уже сыты по горло - хрен редьки не слаще.

Или это будет native .net клиент для XMLA? То есть клиентская машина не должна отягощаться установкой Pivot Table Services?
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32418104
Ирина
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Скоро - это скоро, совсем скоро, раньше Юкона. Это будет managed client для xmla.


Ирина

----------------------------------------------------
This posting is provided "AS IS" with no warranties, and confers no rights
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32425601
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
о Mosha

Technet отвечает:
Distinct count measures are also much improved in “Yukon”. A distinct count measure can now be defined on string data, and queries can be defined that will perform a Distinct Count over an arbitrary set. Analysis Services 2000 performed distinct counts only on the predefined hierarchical structure.


BackfireНу наконец-то, а то МДХ такю лажу в 2К версии поставляет - он просто арифметически суммирует значение мер для элементов slicer, а не считает distinct count, для slicer по некольким элементам одного измерения.
Да, мой восторг по поводу distinct count был к сожалению преждевременен.
Ваша цитата из TechNet явно прждевременна. Это мягко говоря "не соответсвует действительности".

Создайте в "Adventure Works" на поле FactSales.ProductKey меру [Product Key]
задав тип аггрегации DistinctCount и выполните следующий запросик.

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
with

set [Set0] as 
[Customer].[Customer Geography].[All].[Germany].children

member [Customer].[Customer Geography].[MemberAggregate0] as
aggregate([Set0])

member [Customer].[Customer Geography].[MemberAggregate1] as
aggregate([Customer].[Customer Geography].[All].[Germany].children)

member [Customer].[Customer Geography].[MemberAggregate2] as
aggregate({
[Customer].[Customer Geography].[All].[Germany].Bayern,
[Customer].[Customer Geography].[All].[Germany].Hamburg,
[Customer].[Customer Geography].[All].[Germany].Hessen,
[Customer].[Customer Geography].[All].[Germany].Saarland,
[Customer].[Customer Geography].[All].[Germany].[Nordrhein-Westfalen]
})

member [Customer].[Customer Geography].[MemberSum0] as
sum([Customer].[Customer Geography].[All].[Germany].children, [Measures].currentmember)

select {
  [Order Time].[Calendar Time].[All],
  [Order Time].[Calendar Time].[All].&[ 2002 ],
  [Order Time].[Calendar Time].[All].&[ 2001 ],
  [Order Time].[Calendar Time].[All].&[ 2003 ]
} on columns,
crossjoin ({
  [Customer].[Customer Geography].[All].[Germany],
  [Customer].[Customer Geography].[MemberAggregate0],
  [Customer].[Customer Geography].[MemberAggregate1],
  [Customer].[Customer Geography].[MemberAggregate2],
  [Customer].[Customer Geography].[MemberSum0],
  [Set0]
},{[Measures].[Product Key]}) on rows 
from [Adventure Works]


Для убедительности даже результат приведу

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
                                All     2002 	   2001     2003 
Germany             Product Key  158      53 	   18 	  128 
MemberAggregate0    Product Key	#Error #Error #Error #Error
MemberAggregate1    Product Key	 158      158 	   158 	  158 
MemberAggregate2    Product Key	#Error #Error #Error #Error
MemberSum0          Product Key	 654      139 	   45 	  471 
Bayern              Product Key	 115      21 	   8 	      74 
Hamburg             Product Key	 122      24 	   7 	      92 
Hessen              Product Key	 137      33 	   11 	  99 
Nordrhein-Westfalen Product Key	 135      25 	   8 	      97 
Saarland            Product Key	 145      36 	   11 	  109 
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32425793
Mosha
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
To: backfire

Я не могу вести обсуждение Yukon в открытом форуме, потому что Beta 1 была распространена под NDA. Все что я могу - это цитировать информацию уже опубликованную на MSDN. Напоминаю Вам, что поскольку Вы тоже находитесь по действием этой NDA, то пожалуйста тоже воздержитесь от обсуждения деталей Yukon на sql.ru.

Я с удовольствием отвечу на этот и любые другие Ваши вопросы связанные с Yukon в microsoft.beta.yukon.analysisservices.olap
...
Рейтинг: 0 / 0
40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
    #32425846
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To Mosha

K sozhalenizu ya ne dopuschen "k telu imperatora"

A moshap@use.net i moshap@hotmail.com ne rabotazut.
...
Рейтинг: 0 / 0
37 сообщений из 37, показаны все 2 страниц
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / 40-миллионики под MS AS уже стали нормой, 2-3 млрд. скоро будут нормой.
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]