|
|
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
Я не большой знаток в построении хранилищь! Вопрос: Есть OLTP(ASE 12.5) база, где хроняться документы. Эти документы надо залить с помощью RepServer в OLAP(ASE или IQ), но заливать целиком документы не хотелось бы. Может ли RepServer или ASE(или IQ) произвести трансформацию пер тем как сохранить данные в OLAP базе? Может что-то надо докупить, или у Sybase есть свои технологии по трансформации. В будующем предпологается что OLTP источников будет много и не только ASE! Спасибо! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.08.2008, 23:11 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
cherrex_Den wrote: > Вопрос: Есть OLTP(ASE 12.5) база, где хроняться документы. Эти документы > надо залить с помощью RepServer в OLAP(ASE или IQ), но заливать целиком > документы не хотелось бы. Может ли RepServer или ASE(или IQ) произвести > трансформацию пер тем как сохранить данные в OLAP базе? По-моему, таких средств в RepServer нет. Но я не уверен. Кроме того, я могу сказать следующее -- перед помещением в хранилище данных данные как правило очень сильно трансформируются, это требует значительных вычислительных ресурсов и, как правило, это нужно делать в пакетном режиме, не on-line. -- IQ с заливкой в него данных со скоростью изменения в OLTP скорей всего не справится, он для этого не предназначен. Он оптимизирован для чтения данных с разными агрегациями и пр., поэтому при заливке данных производится построение дополнительных структур данных для поддержки всего этого, что, естественно, медленнее. Posted via ActualForum NNTP Server 1.4 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.08.2008, 12:04 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
Так на каком этапе производить трансформацию и кто этим должен заняться(OLTP или OLAP или кто-то еще)? А все аналитические системы работают в дискретном(пакетном) режиме? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.08.2008, 14:19 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
Repserver можно использовать как средство передачи данных в DWH. Но эта возможность ограничена объемами и сложностью трансформаций. RS может делать трансформацию данных с помощью function string. Но эти трансформации конечно же ограничены по сравнению с базовыми средствами ETL, таких например как Informatica. C другой стороны сам IQ не предназначен для едичных statementoв. Так например единичные инсерты IQ будет обрабатывать приблизительно со скоростью 400-500 строк в сек. В то время как при пакетной вставке (LOAD) скорость может быть почти в 1000 раз больше и доходить до 300 000 строк в сек. Таким образом, вопрос только в объемах данных передаваемых в OLAP и сложности операций трансформаций. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.08.2008, 14:52 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
Ситуация такая: Примерно 300-400 документов рождается каждый день. Анализ нужен в разрезе по дням. То есть это обычный селект с вычислением суммы, групперовкой по дате и еще по нескольким полям. Сам документ имеет полей 20-30, но нужно максимум 5-10. Так как OLTP у нас на ASE, я стараюсь рассматриваю только технологии Sybase(не хочеться допускать расслоение и зоопарк). Но это не категорично! Если нет другого выхода, то можно использовать другие технологии. Использование RepServer и IQ это чисто мой выбор(увы о другом не знаю)! Сейчас потребность такая, но в дальнейшем все может усложниться(и объемы могут вырости и усложниться трансформация). Поэтому если заложиться на самый худший расклад, что можете посоветовать? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.08.2008, 15:45 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
cherrex_DenТак на каком этапе производить трансформацию и кто этим должен заняться(OLTP или OLAP или кто-то еще)? Ключевое слово - ETL cherrex_DenА все аналитические системы работают в дискретном(пакетном) режиме? вопрос когда данные должны быть там... как-можно-быстрей, завтра, по-требованию.... cherrex_Den Так как OLTP у нас на ASE, я стараюсь рассматриваю только технологии Sybase(не хочеться допускать расслоение и зоопарк). Но это не категорично! Если нет другого выхода, то можно использовать другие технологии. Использование RepServer и IQ это чисто мой выбор(увы о другом не знаю)! На сколько знаю, практически все ведущие производители баз данных неимели (или очень скромные поделки) своих аналогов ETL, Data Integration и т.д. и приобрили другие компании, у которых были готовые решения. Sybase не исключение. Так что "технологии Sybase" будет громко сказано ;) cherrex_Den Ситуация такая: Примерно 300-400 документов рождается каждый день. 8<--- Сейчас потребность такая, но в дальнейшем все может усложниться(и объемы могут вырости и усложниться трансформация). Поэтому если заложиться на самый худший расклад, что можете посоветовать? Можно конечно сегодня начать "развозить пиццу камазами" в рассчете на то что, когда-то кто-то "закажет аж 10 тон" Стоимость одних только лицензий на соответствующие продукты может легко начать исчисляться 5-ти значными цифрами, а еще не забываем надо кому-то все это дело поддерживать, разрабатывать и т.д. и т.д... И еще, когда у вас будут "и объемы могут вырости и усложниться трансформация" может пройти не мало времени. cherrex_Den То есть это обычный селект с вычислением суммы, групперовкой по дате и еще по нескольким полям. Сам документ имеет полей 20-30, но нужно максимум 5-10. ... а может и вполне хватит perl скриптов и cron'а :)) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.08.2008, 14:56 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
herr .... начать исчисляться 5-ти значными цифрами,... 6 -ти значными цифрами ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.08.2008, 15:37 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
Т.е между OLTP и OLAP должна быть "ETL-прослойка"? Какая прослойка максимально подходит для СУБД Sybase? Или это не та грань при которой надо руководствоваться при выборе ETL? Я считаю что информация должна ппопадать в OLAP как можно быстрей! И можно примеры построения таких систем? Т.е на чем реализован OLAP, как данные поподают в него и какой ETL используеться? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.08.2008, 19:44 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
cherrex_Den wrote: > Я считаю что информация должна ппопадать в OLAP как можно быстрей! Если вы или ваши постановщики задачи так считают, то у вас что-то явно не так. Все задачи OLAP должны быть не требовательны к "свежести" данных. Posted via ActualForum NNTP Server 1.4 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.08.2008, 10:55 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
MasterZiv cherrex_Den wrote: > Я считаю что информация должна ппопадать в OLAP как можно быстрей! Если вы или ваши постановщики задачи так считают, то у вас что-то явно не так. Все задачи OLAP должны быть не требовательны к "свежести" данных. Posted via ActualForum NNTP Server 1.4 Это сугубо мое мнение. И я с этим столкнулся только неделю назад! Для меня это пока "ЧЕРНАЯ ДЫРА" Поэтому не судите строго ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.08.2008, 11:41 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
cherrex_DenТ.е между OLTP и OLAP должна быть "ETL-прослойка"? "должна" - не так категорично. ETL это инструмент позволяющий вытащить данные [E]xtract, трансформировать/изменить их [T]ransform и загрузить в хранилище данных [L]oad. Чем сложнее инфраструктура (источники,сложность трансформации данных, внутреняя политика и т.д. и .т.д) тем ближе обусловлен выбор соответствующего продукта. cherrex_DenКакая прослойка максимально подходит для СУБД Sybase? Или это не та грань при которой надо руководствоваться при выборе ETL? Как правило, все они независимые от источника данных, да и не это самое главное в них. Хотя если очень хочется, то можно Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. Код: plaintext 1. и будут решения от Sybase ;) cherrex_DenЯ считаю что информация должна ппопадать в OLAP как можно быстрей! скорее бизнес должен знать когда им нужны данные cherrex_DenИ можно примеры построения таких систем? Т.е на чем реализован OLAP, как данные поподают в него и какой ETL используеться? // http://www.sybase.com/about_sybase/customer_success_stories cherrex_Den * 300-400 документов рождается каждый день. * Анализ нужен в разрезе по дням. То есть это обычный селект с вычислением суммы, групперовкой по дате и еще по нескольким полям. Сам документ имеет полей 20-30, но нужно максимум 5-10. Для вашей задачи не думаю что нужен Sybase IQ...да и вообще какой-либо полноцений OLAP сервер и также ETL при таких обьемах ;) имхо, ROLAP будет хватать на ура (тем более вы еще до конца и не знаете, что нужно будет в итоге, а строит дом без чертежа...). Все данные хранятся в ASE (хотя многих ROLAP функций и нет в ASE, вам они, как видно и ненужны), а ROLAP клиент (Microstrategy, BusinessObjects и .т.д), уже будет генерить соответстующий(-ие) SQL и т.д. или на худой конец Excel хватит чтобы посмотреть на результат "обычный селект с вычислением суммы" ;) Остается подумать стоит ли огораживать данные или нет, и на сколько трудно простыми деиствиями "почистить" данные. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.08.2008, 19:08 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
MasterZiv cherrex_Den wrote: > Я считаю что информация должна ппопадать в OLAP как можно быстрей! Если вы или ваши постановщики задачи так считают, то у вас что-то явно не так. Все задачи OLAP должны быть не требовательны к "свежести" данных. Очень спорное утверждение. Скажем так - традиционный взгляд ;) Бизнес ставит задачи по доступности данных и если ему нужны данные сейчас (или near-realtime), то на все это не должно быть никакого удивления. Кстати, о Real-Time Data Warehousing стали "говорить" достаточно давно, средств как этого достичь хватает. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.08.2008, 19:28 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
Нет, я конечно все упрощаю! И данные пообъеместей и трансформация сложней! Спасибо за ответы!!! Понял что эту тему с наскока не возмеж!!! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.08.2008, 19:47 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
herr wrote: > Очень спорное утверждение. Скажем так - традиционный взгляд ;) Ну не до последней же транзакции это надо ! А так - да, традиционный. Я думаю, иначе и вообще OLAP делать не нужно. Posted via ActualForum NNTP Server 1.4 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.08.2008, 20:01 |
|
||
|
Построение хранилища данных
|
|||
|---|---|---|---|
|
#18+
cherrex_DenНет, я конечно все упрощаю! И данные пообъеместей и трансформация сложней! Спасибо за ответы!!! Понял что эту тему с наскока не возмеж!!! пообъемИстей & возмеШЬ давайте, всё-таки, уважать коллег и писать грамотно! а то читать сообщения нет никакого желания... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.08.2008, 00:03 |
|
||
|
|

start [/forum/topic.php?fid=55&fpage=47&tid=2011414]: |
0ms |
get settings: |
9ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
35ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
78ms |
get tp. blocked users: |
2ms |
| others: | 11ms |
| total: | 166ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...