оптимизация разреженных данных / OLAP и DWH

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / оптимизация разреженных данных

9 сообщений из 9, страница 1 из 1

оптимизация разреженных данных

#32831164

Michail Dalakov

Гость

Проблему анализа пытаюсь решить тем что на основании существующих таблиц поддерживаю актуальную таблицу фактов и применяю схему "звезда" пользуюсь стандартными средствами СУБД, т.е. результат получается в результате выполнения SQL запроса с group by "измерения", проблема заключается в том, что данные в таблице фактов сильно разреженны, например из 500 000 строк таблицы, group by по всем измерениям дает
400 000 строк, можно ли провести какую нибудь оптимизацию направленную на уменьшение размера таблицы фактов не удаляя из анализа измерения?

...

Рейтинг:

0 / 0

16.12.2004, 19:06

| Ответить | Цитировать | Написать

оптимизация разреженных данных

#32831250

Владимир Штепа

Участник

Откуда: Hannover

Сообщения: 6 037

Рейтинг: 0 / 0

Michail DalakovПроблему анализа пытаюсь решить тем что на основании существующих таблиц поддерживаю актуальную таблицу фактов и применяю схему "звезда" пользуюсь стандартными средствами СУБД, т.е. результат получается в результате выполнения SQL запроса с group by "измерения", проблема заключается в том, что данные в таблице фактов сильно разреженны, например из 500 000 строк таблицы, group by по всем измерениям дает
400 000 строк, можно ли провести какую нибудь оптимизацию направленную на уменьшение размера таблицы фактов не удаляя из анализа измерения?

А в чем собственно проблема и что Вы хотит получить в результате оптимизации?

...

Рейтинг:

0 / 0

16.12.2004, 20:38

| Ответить | Цитировать | Написать

оптимизация разреженных данных

#32831296

Michail Dalakov

Гость

В результате оптимизации хочу уменьшить количество уникальных комбинаций в таблице фактов,

это важно для быстродействия т.к. особенность заключается в том что группировке подвергается не вся таблица фактов а только часть, чем меньше будет уникальных комбинаций тем меньше строк будет подвергаться группировке и быстрее будет получен результат, основные тормоза связаны сгруппиовкой, например проведенный мной анализ показал, что поиск строк которые необходимо группировать занимает ~0.3 c, а их группировка ~15с

...

Рейтинг:

0 / 0

16.12.2004, 21:40

| Ответить | Цитировать | Написать

оптимизация разреженных данных

#32831691

Dmitry Biryukov

Участник

Откуда: Женева

Сообщения: 1 617

Рейтинг: 0 / 0

Для уменьшения времени группировки надо оптимизировать запрос и индексы. С этим вопросом вам прекрасно помогут в формуе по MS SQL, Oracle или какая у вас СУБД?

Для уменьшения строк в таблице фактов можно создать хранилище (хотя бы из одной таблицы). Тогда таблицей фактов у вас будет физическая таблица, данные в которой в точности соответствуют view, и для построения куба не надо будет проводить расчётов и групировок на уровне СУБД.

...

Рейтинг:

0 / 0

17.12.2004, 10:28

| Ответить | Цитировать | Написать

оптимизация разреженных данных

#32831752

Michail Dalakov

Гость

oracle

насчет индексов хочу сказать что они никак не влияют на группировку т.к. для того чтобы сгруппировать надо просканировать всю таблицу

насчет второй части совсем не понял в результате чего таблица фактов уменьшится ведь она по сути дела является уже пре-сгруппированой таблицей на основании данных физической таблицы и по количеству записей естествено меньше

...

Рейтинг:

0 / 0

17.12.2004, 10:45

| Ответить | Цитировать | Написать

оптимизация разреженных данных

#32831945

Владимир Штепа

Участник

Откуда: Hannover

Сообщения: 6 037

Рейтинг: 0 / 0

Michail DalakovВ результате оптимизации хочу уменьшить количество уникальных комбинаций в таблице фактов,

это важно для быстродействия т.к. особенность заключается в том что группировке подвергается не вся таблица фактов а только часть, чем меньше будет уникальных комбинаций тем меньше строк будет подвергаться группировке и быстрее будет получен результат, основные тормоза связаны сгруппиовкой, например проведенный мной анализ показал, что поиск строк которые необходимо группировать занимает ~0.3 c, а их группировка ~15с

С каким OLAP продуктом вы работаете? Какой тип OLAP хранилища ROLAP или MOLAP?

...

Рейтинг:

0 / 0

17.12.2004, 11:50

| Ответить | Цитировать | Написать

оптимизация разреженных данных

#32832017

Dmitry Biryukov

Участник

Откуда: Женева

Сообщения: 1 617

Рейтинг: 0 / 0

Michail Dalakovнасчет индексов хочу сказать что они никак не влияют на группировку т.к. для того чтобы сгруппировать надо просканировать всю таблицу
Не просто просканировать, а сначала отсортировать. А индексы на это дело очень сильно влияют. В любой СУБД, где они есть.
Michail Dalakov
насчет второй части совсем не понял в результате чего таблица фактов уменьшится ведь она по сути дела является уже пре-сгруппированой таблицей на основании данных физической таблицы и по количеству записей естествено меньше
Внимательно прочитайте свой же первый пост
Michail Dalakovданные в таблице фактов сильно разреженны, например из 500 000 строк таблицы, group by по всем измерениям дает
400 000 строк
Вот за счёт того, что во вновь созданной таблице будет на 100 000 строк меньше.

...

Рейтинг:

0 / 0

17.12.2004, 12:16

| Ответить | Цитировать | Написать

оптимизация разреженных данных

#32832135

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

А в чём, собственно, заключается "проблема анализа"?
Постановка вопроса звучит как-то не очень понятно. Не могли бы уточнить?
А ещё неплохо было бы привести скрипт создания таблицы и запрос. А то, не очень понятно, что оптимизируем.

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

17.12.2004, 12:57

| Ответить | Цитировать | Написать

оптимизация разреженных данных

#32832324

олапист

Гость

да, вопрос не очень понятен
но рискну предположить что вам поможет методика "junk dimensions" описанная у Кимбалла

...

Рейтинг:

0 / 0

17.12.2004, 14:04

| Ответить | Цитировать | Написать

9 сообщений из 9, страница 1 из 1

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / оптимизация разреженных данных

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=49&msg=32832324&tid=1871966]:	0ms
get settings:	10ms
get forum list:	20ms
check forum access:	4ms
check topic access:	4ms
track hit:	24ms
get topic data:	13ms
get forum data:	3ms
get page messages:	66ms
get tp. blocked users:	2ms
others:	256ms

total:	402ms