powered by simpleCommunicator - 2.0.44     © 2025 Programmizd 02
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Большой объем данных - Хранилище > 100Гб
25 сообщений из 32, страница 1 из 2
Большой объем данных - Хранилище > 100Гб
    #36923927
eleonora
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Привет всем!
Хочу обратиться к вам за советом

"Потею" над довольно интересной задачкой - в одно хранилище надо собрать данные из 15 филиалов
По приблизительной оценке будет около 100гб и больше

Каждый филиал работает на своей БД (Postgres, Firebird), свои картотеки, свои продукты
В хранилище ето все собирается, стандардизируется и на выходе 5 кубов дла анализирования - Продажа, Покупки, Запасы - документы, Запасы-на месте, Финансы

придумали так -
в каждом филиале ставим MS SQL Express, в центре - MS SQL Standard,
на центральном сервере для каждого филиала своя БД, между ними идет репликация данных
и отдельно - БД - хранилище данных - kuda собираються даные в таблицы фактов, таблицы измерений


Пока что на таблицах нигде нет ключей

Подскажите на что обратить внимание при таком большом объеме данных,
может даже стоит что-то сделать по другому, первый раз собираю все в одну кучу :(

Очень боюсь что в конце, когда вроде все построенно, получиться большой "БУМ" и все рухнет
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36923954
Фотография maxol67
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
eleonora,

а кубы у Вас на MS Analysis Services будут?
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36924029
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
eleonora
придумали так -
в каждом филиале ставим MS SQL Express, в центре - MS SQL Standard,

На стандарте у вас будут ограничения...
- отсутствие линкованных мер и измерений,
- из полуаддитивных мер только LastChild,
- ограничения в SSIS по работе с кубами.
Это то, что на вскидку вспомнил.
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36924030
Dmitry Biryukov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
eleonoraПодскажите на что обратить внимание при таком большом объеме данныхна файловую систему: больше быстрых дисков и раскидывание таблиц по дискам
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36924075
Bigheadman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушкаeleonora
придумали так -
в каждом филиале ставим MS SQL Express, в центре - MS SQL Standard,

На стандарте у вас будут ограничения...
- отсутствие линкованных мер и измерений,
- из полуаддитивных мер только LastChild,
- ограничения в SSIS по работе с кубами.
Это то, что на вскидку вспомнил.
Подробнее здесь
- Только одна группа мер
- Партицирование
- Перспективы
- Custom Rollup
- Write Back
- Data Compression - может быть критично, если ограничены в дисковых ресурсах
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36924081
eleonora
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
maxol67eleonora,

а кубы у Вас на MS Analysis Services будут?

конечно, 2008

Dmitry BiryukoveleonoraПодскажите на что обратить внимание при таком большом объеме данныхна файловую систему: больше быстрых дисков и раскидывание таблиц по дискам

проверю - на сервере два диска - на одном система , на другом базы sql
а takoe можнo сделать v standarde?


а что с ключами/индексами таблиц надо сделать?
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36924091
eleonora
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
еще довольно неприятная вещь - после прохода пакета переброса данных с базы одного филиала (10Гб) до хранилища (13гб) файл лога вырос до 46Гб
можно ли как то избавится вообше от него? что бы операции не записывались в log
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36924101
eleonora
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Bigheadman- Только одна группа мер
- Партицирование
- Перспективы
- Custom Rollup
- Write Back
- Data Compression - может быть критично, если ограничены в дисковых ресурсах

Мда, невесело
но нас поставили перед фактом - работаем со standardom

в измерениях обязательно ли, что бы ключи были по integer? картотеки в основном текстовые
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36924221
Voyager_lan
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушкаeleonora
придумали так -
в каждом филиале ставим MS SQL Express, в центре - MS SQL Standard,

На стандарте у вас будут ограничения...
- отсутствие линкованных мер и измерений,
.
Вот с этим на стандарте все хорошо
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36924231
Voyager_lan
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
eleonoraеще довольно неприятная вещь - после прохода пакета переброса данных с базы одного филиала (10Гб) до хранилища (13гб) файл лога вырос до 46Гб
можно ли как то избавится вообше от него? что бы операции не записывались в log

почитать тут
и
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36924264
Фотография Alex_496
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
100 Гб - не сказал бы что большое хоронилище
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36924766
Полковник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
eleonora,

Тесты и конфигурацию систем посмотрите на TPC_H Попытка экономить на лицензиях вам ничего не даст, вам еще железо нужно будет соответствующее покупать с соответствующими дисковыми массивами... потому ставьте SQL 2008 R2 EE

Сурогатные ключи (int) должны быть обязательно, это даже не обсуждается - тыщу раз везде обсуждалось и во всех книгах и статьях описано, что и зачем, я лично уже замотался это всем доказывать...

Репликация данных? Что прям самая настоящая репликация? Если так - откажитесь от нее. Работайте через промежуточные файлы - с одной базы выгружаете, в другую загружаете...

А самый лучший совет, если вы хотите получить ощутимый и быстрый результат - найдите специалиста по ХД или наймите компанию на разработку.
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36925381
Михаил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Bigheadman
- Только одна группа мер


Пардон, а где это написано?
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36925557
eleonora
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Voyager_lan
почитать тут
и
тут

спасибо огромное


Полковник
Сурогатные ключи (int) должны быть обязательно, это даже не обсуждается -

Опыта у меня всего полгода в этой области , пока всему еще учусь - поэтому извините за простые-глупые вопросы

на курсах не акцентировалось внимание на такие клучи, пожалуйста - ткните носом в хорошую статейку на эту тему
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36925571
eleonora
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Полковникeleonora,

Репликация данных? Что прям самая настоящая репликация? Если так - откажитесь от нее. Работайте через промежуточные файлы - с одной базы выгружаете, в другую загружаете...


А почему нет?
как тогда обеспечит пересылку данных в центр? писать дополнительные "промочки"
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36925615
Полковник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
eleonora,

Здесь статьи по суррогатным ключам. infology.ru

Ниже отрывок из книги "The Microsoft Data Warehouse Toolkit : With SQL Server 2005 and the Microsoft Business Intelligence Toolset"

Surrogate Keys
The primary key for dimension tables should be a surrogate key assigned and managed by the DW/BI system. The most common method for creating surrogate keys is to use the IDENTITY property on the surrogate key column. Every time a row is inserted, the identity column populates itself by incrementing.

Check to ensure the surrogate key column is an integer data type. Choose the appropriate integer type given the anticipated size of the dimension:

Tinyint takes values in the range 0 to 255, and requires 1 byte of storage

Smallint ranges from -215 (-32,768) to 215-1 (32,767), and takes 2 bytes

Int ranges from -231 to 231-1, and takes 4 bytes

Bigint ranges from -263 to 263-1 and takes 8 bytes

Choose the smallest integer type that will work for your dimension. This isn’t very important for the dimension table itself, but it’s vital for the fact table’s storage and performance. These same surrogate keys show up as foreign keys in the fact table. Using the small data types is also important for minimizing memory use during data processing. Make sure you use the same integer types for the fact table as for the corresponding dimension tables.

We usually frown on using meaningful surrogate keys—which is something of an oxymoron—but we make an exception in every DW/BI system we build. The Date dimension should use a surrogate key. That surrogate key should be an integer. But it’s awfully convenient for it to be a meaningful integer of the form year-month-day, such as 20050723. Developers are people, too.


Книжка у меня есть в электронном виде, могу прислать на почту.
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36925703
Совет
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В данном случае надо заплатить денег профессионалам хотя бы на этап обследования и подготовки ТЗ с архитектурой системы.
И опыт неоценимый получите и решение будет рабочим.
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36926683
Djeki
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковникeleonora,

Здесь статьи по суррогатным ключам. infology.ru

Ниже отрывок из книги "The Microsoft Data Warehouse Toolkit : With SQL Server 2005 and the Microsoft Business Intelligence Toolset"

Книжка у меня есть в электронном виде, могу прислать на почту.
Пришлите мне, пожалуйста, я почитаю.
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36926868
AAron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
я бы отказался от репликации, в первую очередь. Далее - убедил использовать SS 2008 r2 EE(!) разница в цене намного меньше цены решения всех проблем, которые обязательно возникнут.

если филиалы уже работают на каких-то БД, то наверное не имеет смысла ставить рядом еще SS. надо сразу выгружать файлы и отправлять их в центр.
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36927131
Полковник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Djeki,

Ушло на почту под ником.
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36929125
eleonora
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Полковникeleonora,

Книжка у меня есть в электронном виде, могу прислать на почту.

да, пожалуйста пришлите - eleonoras@hotmail.ru
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36929143
eleonora
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
СоветВ данном случае надо заплатить денег профессионалам хотя бы на этап обследования и подготовки ТЗ с архитектурой системы.
И опыт неоценимый получите и решение будет рабочим.

вот я и обратилась к СПЕЦИАЛИСТАМ ;)

ТЗ написано, разрисовано
только воплощая его в жизнь задумалась над некоторыми аспектами, стараясь понять и может быть улучшить предложеное
Пока сам не начнешь делать - опыта не прибудет.

не понятно почему отбрасываете репликацию данных? - ведь тогда задействованы механизмы MS SQL и не надо мучится и писать "примочки" выгрузки-загрузки

если филиалы уже работают на каких-то БД, то наверное не имеет смысла ставить рядом еще SS. надо сразу выгружать файлы и отправлять их в центр.
Конечно работают на своих БД - PostgreSQL,Firebird, dbf
а какие механизмы вы тогда используете что бы это работало без вмешательства человека?

из опыта подскажите - как лучше стандартизировать данные - под этим понимаю что -то такое - филиалы используют svoi системы ERP, свои картотеки клиентов/продуктов - а анализировать хотят общие данные - как вы решаете такую проблему?
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36929184
Фотография alexeyvg
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
eleonoraне понятно почему отбрасываете репликацию данных? - ведь тогда задействованы механизмы MS SQL и не надо мучится и писать "примочки" выгрузки-загрузки

а какие механизмы вы тогда используете что бы это работало без вмешательства человека?Обычно данные из разнородных источников в хранилище импортируют, используя SSIS.

Загрузку/выгрузку всё равно придётся писать - вы же не будете реплицировать данные прямо в формат хранилища, производя по ходу заодно очистку данных, приведение к общим справочникам и т.д.
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36929651
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
eleonora...Каждый филиал работает на своей БД (Postgres, Firebird)...
в каждом филиале ставим MS SQL Express...
Скажите, а как вы предполагали переносить данные из первичных учётных систем филиала (на Firebird, например) в SQL Express?
...
Рейтинг: 0 / 0
Большой объем данных - Хранилище > 100Гб
    #36929663
eleonora
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Дедушкаeleonora...Каждый филиал работает на своей БД (Postgres, Firebird)...
в каждом филиале ставим MS SQL Express...
Скажите, а как вы предполагали переносить данные из первичных учётных систем филиала (на Firebird, например) в SQL Express?

ODBC, sqlcmd
...
Рейтинг: 0 / 0
25 сообщений из 32, страница 1 из 2
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Большой объем данных - Хранилище > 100Гб
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]