Гость
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Большой объем данных - Хранилище > 100Гб / 25 сообщений из 32, страница 1 из 2
27.10.2010, 18:49
    #36923927
eleonora
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Привет всем!
Хочу обратиться к вам за советом

"Потею" над довольно интересной задачкой - в одно хранилище надо собрать данные из 15 филиалов
По приблизительной оценке будет около 100гб и больше

Каждый филиал работает на своей БД (Postgres, Firebird), свои картотеки, свои продукты
В хранилище ето все собирается, стандардизируется и на выходе 5 кубов дла анализирования - Продажа, Покупки, Запасы - документы, Запасы-на месте, Финансы

придумали так -
в каждом филиале ставим MS SQL Express, в центре - MS SQL Standard,
на центральном сервере для каждого филиала своя БД, между ними идет репликация данных
и отдельно - БД - хранилище данных - kuda собираються даные в таблицы фактов, таблицы измерений


Пока что на таблицах нигде нет ключей

Подскажите на что обратить внимание при таком большом объеме данных,
может даже стоит что-то сделать по другому, первый раз собираю все в одну кучу :(

Очень боюсь что в конце, когда вроде все построенно, получиться большой "БУМ" и все рухнет
...
Рейтинг: 0 / 0
27.10.2010, 19:00
    #36923954
maxol67
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
eleonora,

а кубы у Вас на MS Analysis Services будут?
...
Рейтинг: 0 / 0
27.10.2010, 19:52
    #36924029
Дедушка
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
eleonora
придумали так -
в каждом филиале ставим MS SQL Express, в центре - MS SQL Standard,

На стандарте у вас будут ограничения...
- отсутствие линкованных мер и измерений,
- из полуаддитивных мер только LastChild,
- ограничения в SSIS по работе с кубами.
Это то, что на вскидку вспомнил.
...
Рейтинг: 0 / 0
27.10.2010, 19:53
    #36924030
Dmitry Biryukov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
eleonoraПодскажите на что обратить внимание при таком большом объеме данныхна файловую систему: больше быстрых дисков и раскидывание таблиц по дискам
...
Рейтинг: 0 / 0
27.10.2010, 20:23
    #36924075
Bigheadman
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Дедушкаeleonora
придумали так -
в каждом филиале ставим MS SQL Express, в центре - MS SQL Standard,

На стандарте у вас будут ограничения...
- отсутствие линкованных мер и измерений,
- из полуаддитивных мер только LastChild,
- ограничения в SSIS по работе с кубами.
Это то, что на вскидку вспомнил.
Подробнее здесь
- Только одна группа мер
- Партицирование
- Перспективы
- Custom Rollup
- Write Back
- Data Compression - может быть критично, если ограничены в дисковых ресурсах
...
Рейтинг: 0 / 0
27.10.2010, 20:26
    #36924081
eleonora
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
maxol67eleonora,

а кубы у Вас на MS Analysis Services будут?

конечно, 2008

Dmitry BiryukoveleonoraПодскажите на что обратить внимание при таком большом объеме данныхна файловую систему: больше быстрых дисков и раскидывание таблиц по дискам

проверю - на сервере два диска - на одном система , на другом базы sql
а takoe можнo сделать v standarde?


а что с ключами/индексами таблиц надо сделать?
...
Рейтинг: 0 / 0
27.10.2010, 20:30
    #36924091
eleonora
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
еще довольно неприятная вещь - после прохода пакета переброса данных с базы одного филиала (10Гб) до хранилища (13гб) файл лога вырос до 46Гб
можно ли как то избавится вообше от него? что бы операции не записывались в log
...
Рейтинг: 0 / 0
27.10.2010, 20:39
    #36924101
eleonora
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Bigheadman- Только одна группа мер
- Партицирование
- Перспективы
- Custom Rollup
- Write Back
- Data Compression - может быть критично, если ограничены в дисковых ресурсах

Мда, невесело
но нас поставили перед фактом - работаем со standardom

в измерениях обязательно ли, что бы ключи были по integer? картотеки в основном текстовые
...
Рейтинг: 0 / 0
27.10.2010, 22:07
    #36924221
Voyager_lan
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Дедушкаeleonora
придумали так -
в каждом филиале ставим MS SQL Express, в центре - MS SQL Standard,

На стандарте у вас будут ограничения...
- отсутствие линкованных мер и измерений,
.
Вот с этим на стандарте все хорошо
...
Рейтинг: 0 / 0
27.10.2010, 22:13
    #36924231
Voyager_lan
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
eleonoraеще довольно неприятная вещь - после прохода пакета переброса данных с базы одного филиала (10Гб) до хранилища (13гб) файл лога вырос до 46Гб
можно ли как то избавится вообше от него? что бы операции не записывались в log

почитать тут
и
...
Рейтинг: 0 / 0
27.10.2010, 22:22
    #36924264
Alex_496
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
100 Гб - не сказал бы что большое хоронилище
...
Рейтинг: 0 / 0
28.10.2010, 10:01
    #36924766
Полковник
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
eleonora,

Тесты и конфигурацию систем посмотрите на TPC_H Попытка экономить на лицензиях вам ничего не даст, вам еще железо нужно будет соответствующее покупать с соответствующими дисковыми массивами... потому ставьте SQL 2008 R2 EE

Сурогатные ключи (int) должны быть обязательно, это даже не обсуждается - тыщу раз везде обсуждалось и во всех книгах и статьях описано, что и зачем, я лично уже замотался это всем доказывать...

Репликация данных? Что прям самая настоящая репликация? Если так - откажитесь от нее. Работайте через промежуточные файлы - с одной базы выгружаете, в другую загружаете...

А самый лучший совет, если вы хотите получить ощутимый и быстрый результат - найдите специалиста по ХД или наймите компанию на разработку.
...
Рейтинг: 0 / 0
28.10.2010, 13:24
    #36925381
Михаил
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Bigheadman
- Только одна группа мер


Пардон, а где это написано?
...
Рейтинг: 0 / 0
28.10.2010, 14:07
    #36925557
eleonora
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Voyager_lan
почитать тут
и
тут

спасибо огромное


Полковник
Сурогатные ключи (int) должны быть обязательно, это даже не обсуждается -

Опыта у меня всего полгода в этой области , пока всему еще учусь - поэтому извините за простые-глупые вопросы

на курсах не акцентировалось внимание на такие клучи, пожалуйста - ткните носом в хорошую статейку на эту тему
...
Рейтинг: 0 / 0
28.10.2010, 14:11
    #36925571
eleonora
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Полковникeleonora,

Репликация данных? Что прям самая настоящая репликация? Если так - откажитесь от нее. Работайте через промежуточные файлы - с одной базы выгружаете, в другую загружаете...


А почему нет?
как тогда обеспечит пересылку данных в центр? писать дополнительные "промочки"
...
Рейтинг: 0 / 0
28.10.2010, 14:25
    #36925615
Полковник
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
eleonora,

Здесь статьи по суррогатным ключам. infology.ru

Ниже отрывок из книги "The Microsoft Data Warehouse Toolkit : With SQL Server 2005 and the Microsoft Business Intelligence Toolset"

Surrogate Keys
The primary key for dimension tables should be a surrogate key assigned and managed by the DW/BI system. The most common method for creating surrogate keys is to use the IDENTITY property on the surrogate key column. Every time a row is inserted, the identity column populates itself by incrementing.

Check to ensure the surrogate key column is an integer data type. Choose the appropriate integer type given the anticipated size of the dimension:

Tinyint takes values in the range 0 to 255, and requires 1 byte of storage

Smallint ranges from -215 (-32,768) to 215-1 (32,767), and takes 2 bytes

Int ranges from -231 to 231-1, and takes 4 bytes

Bigint ranges from -263 to 263-1 and takes 8 bytes

Choose the smallest integer type that will work for your dimension. This isn’t very important for the dimension table itself, but it’s vital for the fact table’s storage and performance. These same surrogate keys show up as foreign keys in the fact table. Using the small data types is also important for minimizing memory use during data processing. Make sure you use the same integer types for the fact table as for the corresponding dimension tables.

We usually frown on using meaningful surrogate keys—which is something of an oxymoron—but we make an exception in every DW/BI system we build. The Date dimension should use a surrogate key. That surrogate key should be an integer. But it’s awfully convenient for it to be a meaningful integer of the form year-month-day, such as 20050723. Developers are people, too.


Книжка у меня есть в электронном виде, могу прислать на почту.
...
Рейтинг: 0 / 0
28.10.2010, 14:49
    #36925703
Совет
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
В данном случае надо заплатить денег профессионалам хотя бы на этап обследования и подготовки ТЗ с архитектурой системы.
И опыт неоценимый получите и решение будет рабочим.
...
Рейтинг: 0 / 0
28.10.2010, 21:21
    #36926683
Djeki
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Полковникeleonora,

Здесь статьи по суррогатным ключам. infology.ru

Ниже отрывок из книги "The Microsoft Data Warehouse Toolkit : With SQL Server 2005 and the Microsoft Business Intelligence Toolset"

Книжка у меня есть в электронном виде, могу прислать на почту.
Пришлите мне, пожалуйста, я почитаю.
...
Рейтинг: 0 / 0
29.10.2010, 01:53
    #36926868
AAron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
я бы отказался от репликации, в первую очередь. Далее - убедил использовать SS 2008 r2 EE(!) разница в цене намного меньше цены решения всех проблем, которые обязательно возникнут.

если филиалы уже работают на каких-то БД, то наверное не имеет смысла ставить рядом еще SS. надо сразу выгружать файлы и отправлять их в центр.
...
Рейтинг: 0 / 0
29.10.2010, 10:00
    #36927131
Полковник
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Djeki,

Ушло на почту под ником.
...
Рейтинг: 0 / 0
30.10.2010, 13:30
    #36929125
eleonora
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Полковникeleonora,

Книжка у меня есть в электронном виде, могу прислать на почту.

да, пожалуйста пришлите - eleonoras@hotmail.ru
...
Рейтинг: 0 / 0
30.10.2010, 13:51
    #36929143
eleonora
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
СоветВ данном случае надо заплатить денег профессионалам хотя бы на этап обследования и подготовки ТЗ с архитектурой системы.
И опыт неоценимый получите и решение будет рабочим.

вот я и обратилась к СПЕЦИАЛИСТАМ ;)

ТЗ написано, разрисовано
только воплощая его в жизнь задумалась над некоторыми аспектами, стараясь понять и может быть улучшить предложеное
Пока сам не начнешь делать - опыта не прибудет.

не понятно почему отбрасываете репликацию данных? - ведь тогда задействованы механизмы MS SQL и не надо мучится и писать "примочки" выгрузки-загрузки

если филиалы уже работают на каких-то БД, то наверное не имеет смысла ставить рядом еще SS. надо сразу выгружать файлы и отправлять их в центр.
Конечно работают на своих БД - PostgreSQL,Firebird, dbf
а какие механизмы вы тогда используете что бы это работало без вмешательства человека?

из опыта подскажите - как лучше стандартизировать данные - под этим понимаю что -то такое - филиалы используют svoi системы ERP, свои картотеки клиентов/продуктов - а анализировать хотят общие данные - как вы решаете такую проблему?
...
Рейтинг: 0 / 0
30.10.2010, 15:29
    #36929184
alexeyvg
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
eleonoraне понятно почему отбрасываете репликацию данных? - ведь тогда задействованы механизмы MS SQL и не надо мучится и писать "примочки" выгрузки-загрузки

а какие механизмы вы тогда используете что бы это работало без вмешательства человека?Обычно данные из разнородных источников в хранилище импортируют, используя SSIS.

Загрузку/выгрузку всё равно придётся писать - вы же не будете реплицировать данные прямо в формат хранилища, производя по ходу заодно очистку данных, приведение к общим справочникам и т.д.
...
Рейтинг: 0 / 0
31.10.2010, 10:31
    #36929651
Дедушка
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
eleonora...Каждый филиал работает на своей БД (Postgres, Firebird)...
в каждом филиале ставим MS SQL Express...
Скажите, а как вы предполагали переносить данные из первичных учётных систем филиала (на Firebird, например) в SQL Express?
...
Рейтинг: 0 / 0
31.10.2010, 10:53
    #36929663
eleonora
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Большой объем данных - Хранилище > 100Гб
Дедушкаeleonora...Каждый филиал работает на своей БД (Postgres, Firebird)...
в каждом филиале ставим MS SQL Express...
Скажите, а как вы предполагали переносить данные из первичных учётных систем филиала (на Firebird, например) в SQL Express?

ODBC, sqlcmd
...
Рейтинг: 0 / 0
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Большой объем данных - Хранилище > 100Гб / 25 сообщений из 32, страница 1 из 2
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]