powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / DWH в MS SQL Server
25 сообщений из 72, страница 1 из 3
DWH в MS SQL Server
    #33403886
_zx
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
_zx
Гость
Уважаемые спецы! Подскажите пожалуйста, строил ли кто-нить из Вас Хранилище Данных на базе MS SQL - сервера? Насколько вообще правильно использовать MS SQL для построения DWH? Какие плюсы и минусы есть у него по сравнению с другими системами для построения DWH?
В дальнейшем планируется использовать данные из хранилища в MS AS и в Экселе, или другом олап - клиенте.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33404254
Фотография Гликоген
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мало фич у него, и много ограничений, относящихся к DWH, если сравнивать MS 2000 с Oracle 9i.
Если вопрос цены и железок не стоит - берите Oracle :)

C другой стороны, если ваше "хранилище" - на пару десятков миллионов записей - то нечего огород городить, MS справится вполне.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33404261
_zx
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
_zx
Гость
Не, переход на Oracle в планы не входит:) Правда, объем данных еще не ясен, только начинаем думать о DW.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33404340
Виктор Сакович
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_zxНе, переход на Oracle в планы не входит:) Правда, объем данных еще не ясен, только начинаем думать о DW.

Оценка объёма данных в данном случае очень важна. Если будет гигабайт 10-20, то в принципе можно сделать неплохо, по опыту знаю. Если больше - лучше не надо. Слышал я и терабайтных хранилищах на MS SQL, но слабо верится. В общем считайте гигабайты. И учтите, что нормализация не всегда хороша, если речь идёт о хранилищах данных.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33404511
MSTR_Fan
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Могу сказать про реляционное хранилище:
Для начала вполне неплохой выбор.
Объёмы несколько гигабайт с несложной схемой и несложными запросами потянет. Плюс грамотная политика по агрегатам, индексам, partitioning - до 80-100 Гб вполне можно разогнать, потом проблемы будут практически не решаемые, по крайней мере на версии 2000 :(
Из плюсов - DTS, этот форум :)
Из явных минусов: никакой partitioning, вообще с DWH фичами труба, никакая масштабируемость во всех смыслах.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33405014
Виктор Сакович
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MSTR_FanМогу сказать про реляционное хранилище:
Для начала вполне неплохой выбор.
Объёмы несколько гигабайт с несложной схемой и несложными запросами потянет. Плюс грамотная политика по агрегатам, индексам, partitioning - до 80-100 Гб вполне можно разогнать, потом проблемы будут практически не решаемые, по крайней мере на версии 2000 :(
Из плюсов - DTS, этот форум :)
Из явных минусов: никакой partitioning, вообще с DWH фичами труба, никакая масштабируемость во всех смыслах.

Кстати о DTS. В 2005 версии я его пока не обнаружил. От него остался Import-Export Wizard. Может быть кто знает, куда он подевался?
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33405080
Ирина
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Он теперь называется Inegration Services(SSIS).
Ирина
<BR>
<BR>----------------------------------------------------
<BR>This posting is provided "AS IS" with no warranties, and confers no rights
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33405589
dmitry_kz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Уважаемые гуру, из всего вышесказанного я так понял, что у меня работать все будет очень плохо, даже если будет работать вообще? (

У меня MSAS2K. Объемы примерно следующие:
Кол-во строк в одной самой большой таблице будет превышать 150 млн. записей. Общий объем всего хранилища будет примерно около 50 Гигов (это только данные без агрегатов и т.д.).
Объемы с каждым днем растут :(

Стоит задача построения отчетов с использованием ОЛАПа. Сейчас OLTP работает на MS AS 7.0 (2K).
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33405635
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 dmitry_kz:

из всего вышесказанного я так понял, что у меня работать все будет очень плохо. У меня MSAS2K. Объемы примерно следующие:
Кол-во строк в одной самой большой таблице будет превышать 150 млн. записей. Стоит задача построения отчетов с использованием ОЛАПа.


Я бы сказал, что вопрос не в том, какая СУБД используется для создания хранилища данных, а какое OLAP-средство работает поверх хранилища... Я могу легко сделать ХД на основе MS Access или файлов DBF, закачать туда миллиард записей, и все будет работать с 5-секундным откликом на каждый запрос пользователя. Просто чтобы это достичь, я буду использовать OLAP-сервер, который преобразует реляционные данные в формат MOLAP-куба.
Так что 150 миллионов для MS SQL при правильном выборе OLAP-сервера - это небольшой объем.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33405699
dmitry_kz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
2 Jurii:

Ага, понял... Тогда если для такой ситуации выбирают MS AS2K, то это приемлимо? Ведь он же преобразовывает реляционные данные в MOLAP... :)

Т.е. если схема такая:

OLTP (MS SQL 7.0/2K) -> Хранилище данных (MS SQL 2K) -> OLAP (MS AS2K)

то она вполне способна жить, и даже очень хорошо жить... :)
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33405738
awg1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dmitry_kz2 Jurii:

Ага, понял... Тогда если для такой ситуации выбирают MS AS2K, то это приемлимо? Ведь он же преобразовывает реляционные данные в MOLAP... :)

Т.е. если схема такая:

OLTP (MS SQL 7.0/2K) -> Хранилище данных (MS SQL 2K) -> OLAP (MS AS2K)

то она вполне способна жить, и даже очень хорошо жить... :)

Вы абсолютно правы!
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33405758
MSTR_Fan
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
JuriiЯ могу легко сделать ХД на основе MS Access или файлов DBF, закачать туда миллиард записей, и все будет работать с 5-секундным откликом на каждый запрос пользователя. Просто чтобы это достичь, я буду использовать OLAP-сервер, который преобразует реляционные данные в формат MOLAP-куба.
Супер.
Запрос - distinct count по таблице детального уровня с группировкой по 3-4 полям. Без ограничений. (Смотрим активность торговых точек по времени суток за всю историю, в деньгах и штуках)
Размер таблицы - 1 млрд строк, для ровного счета :)
Решение в студию!
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33405766
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 dmitry_kz:

Ага, понял... Тогда если для такой ситуации выбирают MS AS2K, то это приемлимо?
Т.е. если схема такая:
OLTP (MS SQL 7.0/2K) -> Хранилище данных (MS SQL 2K) -> OLAP (MS AS2K)
то она вполне способна жить, и даже очень хорошо жить... :)


MS AS - это один из двух самых мощных в мире OLAP-серверов, поэтому Ваша схема приемлема. Есть конечно тонкости, которые могут всплыть, если Вы будете решать сложные аналитические задачи. Поэтому полезно заранее анализировать потребности пользователей, и только на основе этого выбирать OLAP-инструментарий.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33405808
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 MSTR_Fan:

Супер.
Запрос - distinct count по таблице детального уровня с группировкой по 3-4 полям. Без ограничений. (Смотрим активность торговых точек по времени суток за всю историю, в деньгах и штуках)
Размер таблицы - 1 млрд строк, для ровного счета :)
Решение в студию!


Если Вы представляете компанию S&T, которая недавно стала партнером Cognos, Вы должны знать, что такое Cognos PowerPlay. В MOLAP-куб PowerPlay можно закачать миллиард записей, и PowerPlay умеет считать Distinct Count и делать группировки. Задача по торговым точкам и часам суток - популярна и давно обкатана в PowerPlay.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33405858
MSTR_Fan
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Jurii
Если Вы представляете компанию S&T, которая недавно стала партнером Cognos, Вы должны знать, что такое Cognos PowerPlay.
Я не представляю здесь компанию S&T, хотя и хорошо к ней отношусь :)

Jurii
В MOLAP-куб PowerPlay можно закачать миллиард записей, и PowerPlay умеет считать Distinct Count и делать группировки. Задача по торговым точкам и часам суток - популярна и давно обкатана в PowerPlay.

То есть Вы утверждаете что Cognos PowerPlay способен сделать full table scan таблицы любых размеров за 5 секунд, я правильно понял? И время закачивания мы считаем?
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33406054
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 MSTR_Fan:

Я не представляю здесь компанию S&T, хотя и хорошо к ней отношусь :)

То есть Вы не обижаетесь на S&T за то что она Вас предала и подружилась с Cognos? Если так - то Вы пока еще не фан МСТР :)

То есть Вы утверждаете что Cognos PowerPlay способен сделать full table scan таблицы любых размеров за 5 секунд, я правильно понял? И время закачивания мы считаем?

PowerPlay не делает full table scan, эта операция для MOLAP-куба не актуальна. Те данные, которых бывает много (записи CDR, строки чеков и т.п.), не корректируются задним числом, поэтому их можно подкачивать инкрементально, и за счет этого минимизируется время обновления MOLAP-куба. Обычно большие кубы обновляются по ночам, когда пользователи спят и никуда не торопятся, но можно их обновлять и по факту поступления свежих данных в ХД. В дневное время суток уже обеспечивается 5-секундный отклик, так как все показатели во всех разрезах заранее просчитаны.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33406234
MSTR_Fan
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Jurii
То есть Вы не обижаетесь на S&T за то что она Вас предала и подружилась с Cognos? Если так - то Вы пока еще не фан МСТР :)

"Держи друзей близко, а врагов - ещё ближе" :)

Jurii
PowerPlay не делает full table scan, эта операция для MOLAP-куба не актуальна. Те данные, которых бывает много (записи CDR, строки чеков и т.п.), не корректируются задним числом, поэтому их можно подкачивать инкрементально, и за счет этого минимизируется время обновления MOLAP-куба. Обычно большие кубы обновляются по ночам, когда пользователи спят и никуда не торопятся, но можно их обновлять и по факту поступления свежих данных в ХД. В дневное время суток уже обеспечивается 5-секундный отклик, так как все показатели во всех разрезах заранее просчитаны.

Очень интересно, а как происходит initial load? Предположим пришло изменение задним числом.
И ещё такой момент: инкремент может приходить нецелостным - пришел факт, а в справочнике записи нет. Как с этим? Может PP обеспечить целостность или это возлагается на источник?

Спасибо за ответы.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33406392
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 MSTR_fan:

Очень интересно, а как происходит initial load?

Первоначальная загрузка данных в MOLAP-куб конечно же требуется, и может занимать значительное время (для сотен миллионов записей может занять несколько часов). Но как мы понимаем, если строить серьезное реляционное ХД, то там есть аналогичные этапы - и полная загрузка, и обновление, и поднятие базы из бэкапа. Для одной знакомой мне крупной розничной сети требовалось чуть ли не 2 недели, чтобы поднять из бэкапа большую реляционную БД Oracle...

Предположим пришло изменение задним числом.
И ещё такой момент: инкремент может приходить нецелостным - пришел факт, а в справочнике записи нет. Как с этим? Может PP обеспечить целостность или это возлагается на источник?


Конечно это экзотика, когда чек, пробитый месяц или год назад правится задним числом... Но если такое произойдет, то можно изменить соответствующие показатели в ячейках MOLAP-куба с помощью операции сторнирования. То же самое можно сказать про случай, если в исходных данных была запись с неправильным кодом товара или просто с непроставленным кодом - сторнирование и возможность в PowerPlay делать запись данных в произвольные ячейки куба, а также создавать новые ячейки в кубе без полного перепроцессинга куба, решают эти проблемы.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33406634
MSTR_Fan
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
JuriiКонечно это экзотика, когда чек, пробитый месяц или год назад правится задним числом... Но если такое произойдет, то можно изменить соответствующие показатели в ячейках MOLAP-куба с помощью операции сторнирования. То же самое можно сказать про случай, если в исходных данных была запись с неправильным кодом товара или просто с непроставленным кодом - сторнирование и возможность в PowerPlay делать запись данных в произвольные ячейки куба, а также создавать новые ячейки в кубе без полного перепроцессинга куба, решают эти проблемы.

Спасибо, как происходит сторнирование (корректирующая запись) по изменившемуся чеку понятно. Но вот задача с distinct count: data quality assurance tool дал нам знать что определенная порция документов не валидна - нужно их удалить. Если предположить что для проведения инкрементальной подгрузки distinct count агрегата Cognos хранит все distinct значения отдельно, где-то в кубе, то как он определяет какие из distinct значений нужно корректировать?

И ещё вопрос: какой интерфейс дает Cognos для сторнирования? API?
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33406729
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Виктор СаковичИ учтите, что нормализация не всегда хороша, если речь идёт о хранилищах данных

Виктор, я всю жизнь думал, что хранилище денных должно быть нормализованным для обеспечения той самой единственной версии правды, о которой упомянул Моша. Интересно, ради чего, по-твоему, нужно в хранилищах жертвовать нормализацией? Уж не ради производительности же?

JuriiЯ бы сказал, что вопрос не в том, какая СУБД используется для создания хранилища данных, а какое OLAP-средство работает поверх хранилища... Я могу легко сделать ХД на основе MS Access или файлов DBF, закачать туда миллиард записей, и все будет работать с 5-секундным откликом на каждый запрос пользователя.

Юрий, это для бедных. Есть задачи, которые не решаются средствами ОЛАП, а требуют реляционного хранилища. Вам это должно быть известно.

2 _zx:

Присоединяюсь к вышесказанному - SQL Server ещё не готов как платформа для построения хранилищ данных. Недостаточно соответствующих фич.
Существуют СУБД, способные работать на порядок быстрее на тех же вычислительных мощностях.



С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33406757
_zx
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
_zx
Гость
Константин Лисянский Виктор СаковичИ учтите, что нормализация не всегда хороша, если речь идёт о хранилищах данных

Виктор, я всю жизнь думал, что хранилище денных должно быть нормализованным для обеспечения той самой единственной версии правды, о которой упомянул Моша. Интересно, ради чего, по-твоему, нужно в хранилищах жертвовать нормализацией? Уж не ради производительности же?

JuriiЯ бы сказал, что вопрос не в том, какая СУБД используется для создания хранилища данных, а какое OLAP-средство работает поверх хранилища... Я могу легко сделать ХД на основе MS Access или файлов DBF, закачать туда миллиард записей, и все будет работать с 5-секундным откликом на каждый запрос пользователя.

Юрий, это для бедных. Есть задачи, которые не решаются средствами ОЛАП, а требуют реляционного хранилища. Вам это должно быть известно.

2 _zx:

Присоединяюсь к вышесказанному - SQL Server ещё не готов как платформа для построения хранилищ данных. Недостаточно соответствующих фич.
Существуют СУБД, способные работать на порядок быстрее на тех же вычислительных мощностях.



С уважением,
Константин Лисянский
http://lissianski.narod.ru



А что за СУБД Вы имеете в виду? Кроме Oracle 9i.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33406762
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Например, СУБД Teradata.

С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33406798
_zx
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
_zx
Гость
судя по этой статье: http://www.citforum.ru/database/kbd98/glava5.shtml
к Teradata Вы имеете непосредственное отношение, наверное внедряете:) что не может не влиять на Вашу объективность:)
в нете как-то не густо информации об этой СУБД, у Вас нет ссылки на ее поставщика?
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33406800
OldNov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Костя, я с тобой спорить не хочу (но если ты настаиваешь, то проблем никаких нет, я готов в деталях, так сказать :-)). НИКТО ЕЩЕ НЕ СДЕЛАЛ СУБД, которорая работает на платформе Microsoft быстрее, чем MS SQL.

Я не понимаю, о чем тут сыр-бор завелся. Зачем создавать проблему из ничего? Я навскидку могу назвать пять компаний в Москве, у которых обычный Navision Attain с его совершенно тупой схемой данных (кто сталкивался, тот знает) дорос до 200 гигабайт. И ничего, живет себе и не пыхтит, притом что вся обработка в Attain фактически производится на клиенте. А вы разводите философию "будет хранилище работать, не будет хранилище работать".

Главное - свое хранилище спроектируйте с умом, и тогда distinct count даст вам гарантированный ответ за те же 5 секунд. Просто придется потратить на железо на 2000$, а чуть поболее. А потом вам Юрий правильно сказал - купите хорошего клиента и радуйтесь удовольствиям жизни.
...
Рейтинг: 0 / 0
DWH в MS SQL Server
    #33406809
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jurii
Я могу легко сделать ХД на основе MS Access или файлов DBF, закачать туда миллиард записей


Юра, Вы когда сказки рассказываете, то не забывайте сначала в шпаргалку по физическим ограничениям Access и DBF поглядеть...
...
Рейтинг: 0 / 0
25 сообщений из 72, страница 1 из 3
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / DWH в MS SQL Server
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]