powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Vertica vs Netezza vs Grennplum
25 сообщений из 93, страница 2 из 4
Vertica vs Netezza vs Grennplum
    #37714865
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinASCRUSпропущено...

кстати коммерческий Talend замечательно CDC поддерживает для всех основных вендоров.Ну для СУБД Oracle Talend использует LogMiner, либо триггеры, что, как бы, не очень хорошо - тормоза еще те.
MSSQL 2005 я не понимаю, как они могут поддерживать, кроме как с помощью триггеров.
Ну и давайте ссылку про "замечательно", а то как-то оно голословно ;)
Не дам. Тема не про это. Что умеет субд по cdc, то и поддерживается. Если ничего не умеет, разруливается дедовским timestamp и триггерами. А в mssql штатно cdc через триггера сделано. Я плотно работаю с Talend, будет время, потом как нибудь расскажу.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715052
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZivVovaka,

а что за проект?
какие данные?

и 100 терабайт — это сколько в записях?

100ТБ - это оценочная прикидка года через 3.

Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100 млн записей в сутки, далее будет только расти, сырые данные нужны как минимум месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов держать. Есть еще нетипичные примеры, когда записей в секунду сейчас порядка 200 тысяч . Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего агрегировать, нужен просто быстрый поиск.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715246
mijatovic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Интересная задача и OLTP и DWH в одном.
В случае GreenPlum и Netezza будут проблемы с загрузкой одиночных записей. ETL процесс на этих системах отдельная задача(про Sybase ничего сказать не могу). Для этого больше подходит Oracle или MS SQL SERVER. Если рассматривать ExaData - то хранить 100 Тб на ней действительно дороговато(кстати, учтен ли рост притока данных с течением времени?). Тут надо думать над 2 уровнем хранилища. Если по историческим данным надо проводить аналитику - можно задуматься над hadoop. Если нужны select only операции (применимо к историческим данным), то это какая-нибудь NoSQL база. В ExaData,кстати, есть гибридная компрессия, которая на некотором пофиле данных весьма не плохо жмет (во что превратятся 100 Тб - это еще вопрос). Тут надо говорить к контектсте того сколько стоит хранить 1 Тб "сырых" данных
Вот пакетик, которым можно оценить сжатие, попробуйте:
http://uhesse.com/2011/09/12/dbms_compression-example
http://www.morganslibrary.com/reference/pkgs/dbms_compression.html
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715276
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
On 03/21/2012 11:21 AM, Vovaka wrote:

> Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100
> млн записей в сутки, далее будет только расти, сырые данные нужны как минимум
> месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов

3 миллиарда в месяц.

> держать. Есть еще нетипичные примеры, когда записей *в секунду *сейчас порядка
> *200 тысяч*. Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего
> агрегировать, нужен просто быстрый поиск.

17 млрд записей в сутки -- это интересно. Это сколько же в месяц ? 510
миллиардов. Солидно.

Надо оборудование хорошее для этого, кластерок этак машин на ... --
блин, 80 получается. Это уже не шутки, это много.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715309
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mijatovicИнтересная задача и OLTP и DWH в одном.
В случае GreenPlum и Netezza будут проблемы с загрузкой одиночных записей. ETL процесс на этих системах отдельная задача(про Sybase ничего сказать не могу). Для этого больше подходит Oracle или MS SQL SERVER. Если рассматривать ExaData - то хранить 100 Тб на ней действительно дороговато(кстати, учтен ли рост притока данных с течением времени?). Тут надо думать над 2 уровнем хранилища. Если по историческим данным надо проводить аналитику - можно задуматься над hadoop. Если нужны select only операции (применимо к историческим данным), то это какая-нибудь NoSQL база. В ExaData,кстати, есть гибридная компрессия, которая на некотором пофиле данных весьма не плохо жмет (во что превратятся 100 Тб - это еще вопрос). Тут надо говорить к контектсте того сколько стоит хранить 1 Тб "сырых" данных
Вот пакетик, которым можно оценить сжатие, попробуйте:
http://uhesse.com/2011/09/12/dbms_compression-example
http://www.morganslibrary.com/reference/pkgs/dbms_compression.html

Ну в общем 2 уровня скорее всего и будет, а то еще и третий, под холодные данные
Одиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком, и тут если их так и грузить, то IQ сильно просаживается, ему их клеить нужно и чем больше тем лучше, что не всегда уже реализуемо малой кровью
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715328
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZivOn 03/21/2012 11:21 AM, Vovaka wrote:

> Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100
> млн записей в сутки, далее будет только расти, сырые данные нужны как минимум
> месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов

3 миллиарда в месяц.

> держать. Есть еще нетипичные примеры, когда записей *в секунду *сейчас порядка
> *200 тысяч*. Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего
> агрегировать, нужен просто быстрый поиск.

17 млрд записей в сутки -- это интересно. Это сколько же в месяц ? 510
миллиардов. Солидно.

Надо оборудование хорошее для этого, кластерок этак машин на ... --
блин, 80 получается. Это уже не шутки, это много.


Ну это исключение конечно, там несколько колонок всего, да и жмется отлично
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715360
mijatovic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
авторОдиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком
Вот с этим Oracle замечательно справляется.
Кстати, а данные приходят чистые?
Не думали над тем, что бы создать Stage area перед загрузкой данных, которая будет чистить, конкатенировать данные, и только потом грузить оптимальным для базы способом?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715365
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mijatovicавторОдиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком
Вот с этим Oracle замечательно справляется.
Кстати, а данные приходят чистые?
Не думали над тем, что бы создать Stage area перед загрузкой данных, которая будет чистить, конкатенировать данные, и только потом грузить оптимальным для базы способом?

С этим проблем как раз совсем нет в подавляющем большинстве случаев, machine generated - все чисто.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715388
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
> Для этого больше подходит Oracle или MS SQL SERVER.

Вот уж что меньше всего подходит, так эти два.

Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715406
mijatovic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
авторВот уж что меньше всего подходит, так эти два.
Я имел ввиду загрузку множества одиночных записей, возможно был не правильно понят.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715645
Vovaka
Ну в общем 2 уровня скорее всего и будет, а то еще и третий, под холодные данные
Одиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком, и тут если их так и грузить, то IQ сильно просаживается, ему их клеить нужно и чем больше тем лучше, что не всегда уже реализуемо малой кровью

1. Смотрели IQ 12.7? 15-ка быстрее грузит.
2. Грузили из файлов LOADом? Файлы "fully delimited" (в параллели всё вгружалось)? 200k записей /сек для IQ на нормальной машине - это совсем не много.
3. Если файлов много, то скорость снижается тогда, когда на таблице много индексов HG, Unique HG, PK. Но тогда одни LOADом можно сразу несколько файлов грузить за раз. Или уменьшить кол-во индексов с типом HG - скорость вырастёт прилично. Можно использовать промежуточный Staging, например, в котором минимум индексов с типом HG, а потом всё сбрасывать в нормальные таблички.
4. Файлы формата binary вгружаются намного быстрее чем ASCII. Откуда файлы приходят - можно форматом управлять?
5. Можно побить на партиции (отдельная опция), а можно "бесплатно" сделать отдельные таблички и потом "create view ... select union all". Такая вьюха отрабатывается IQ как "partitioned table" и работает ещё быстрее, чем штатные партиции.
6. Minimize_Storage или IQ UNIQUE стоял везде или выборочно? Тоже влияет на скорость загрузки - сколько колонок в процессе загрузки дополнительно оптимизируется + к компрессии.
7. Полючить представительство Sybase - для такой интересной задачки они не откажут в помощи :)

Короче - поля для деятельности достаточно ...
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715870
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Забыл парольVovakaНу в общем 2 уровня скорее всего и будет, а то еще и третий, под холодные данные
Одиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком, и тут если их так и грузить, то IQ сильно просаживается, ему их клеить нужно и чем больше тем лучше, что не всегда уже реализуемо малой кровью

1. Смотрели IQ 12.7? 15-ка быстрее грузит.
2. Грузили из файлов LOADом? Файлы "fully delimited" (в параллели всё вгружалось)? 200k записей /сек для IQ на нормальной машине - это совсем не много.
3. Если файлов много, то скорость снижается тогда, когда на таблице много индексов HG, Unique HG, PK. Но тогда одни LOADом можно сразу несколько файлов грузить за раз. Или уменьшить кол-во индексов с типом HG - скорость вырастёт прилично. Можно использовать промежуточный Staging, например, в котором минимум индексов с типом HG, а потом всё сбрасывать в нормальные таблички.
4. Файлы формата binary вгружаются намного быстрее чем ASCII. Откуда файлы приходят - можно форматом управлять?
5. Можно побить на партиции (отдельная опция), а можно "бесплатно" сделать отдельные таблички и потом "create view ... select union all". Такая вьюха отрабатывается IQ как "partitioned table" и работает ещё быстрее, чем штатные партиции.
6. Minimize_Storage или IQ UNIQUE стоял везде или выборочно? Тоже влияет на скорость загрузки - сколько колонок в процессе загрузки дополнительно оптимизируется + к компрессии.
7. Полючить представительство Sybase - для такой интересной задачки они не откажут в помощи :)

Короче - поля для деятельности достаточно ...

да, 12.7
На все не буду отвечать, понятно, что можно оптимизировать еще, но лицензии ...

мультиплекс из трех серверов, каждый 2 проца х 6 ядер, считаем 36 ядер, из них каждое второе стоит 40 тыщ + 50 тыщ х 2 для мультиплекса итого 820 тыщ + 20% ТП, итого лям. Для сравнения Netezza примерно в той же конфигурации почти в 3 раза дешевле, причем уже с железом. Ну и Sybase CIS всех своих спецов давно профукал и продолжает это с завидным постоянством делать. Майкл в своем репертуаре. В общем ну их в сад :)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715917
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Все таки хочется узнать побольше именно про 3 озвученные платформы. Остальное уже за рамками топика.

Завтра кстати все выступают на Big Data, послушаем, может чего интересного расскажут :)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37716619
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Данные точно необходимо загружать именно в реальном времени или небольшой временной lag допустим? Я очень сомневаюсь, что данные и правда нужны пользователям в ту же секунду, в которую они поступили для загрузки.
Если lag допустим, то писать можно куда угодно, хоть в плоский файл, который после достижения оптимального размера (объем\кол-во строк) скармливается загрузчику и тогда никаких проблем не будет, никакой Оракл, Экзадат тут не нужны.

На счет IQ соглашусь, не стоит оно тех денег, которые за нее просят.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37716635
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Спрошу чисто для "проформу": Teradata уже рассматривли?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37716672
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexДанные точно необходимо загружать именно в реальном времени или небольшой временной lag допустим? Я очень сомневаюсь, что данные и правда нужны пользователям в ту же секунду, в которую они поступили для загрузки.
Если lag допустим, то писать можно куда угодно, хоть в плоский файл, который после достижения оптимального размера (объем\кол-во строк) скармливается загрузчику и тогда никаких проблем не будет, никакой Оракл, Экзадат тут не нужны.
согласен. При использовании etl этот вопрос решается без проблем. на самом деле данные с аппаратуры идут пакетами в разных форматах. В пакете может быть и 1 тысяча и 100 тысяч записей. пакет с помощью etl преобразовывается в плоский файл и загружается с использованием пакетной загрузки субд. Netezza и Vertica позволяют грузить эти пакеты параллельно с множества устройств, в IQ придется результат парсинга склеивать перед загрузкой, что означает узкое место и дополнительные телодвижения на etl, чтобы оптимизировать это. Проблема здесь в том, что например если одно устройство генерирует данных в разы больше других, то равномерность поступления данных в ХД от устройств может нарушаться, где по одному устройству данные за последние 5 мин уже доступны, а по другому нет. Но естественно все решаемо ;)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37716683
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexСпрошу чисто для "проформу": Teradata уже рассматривли?
Для задач хранения и анализа machine generate данных imho терадата жирно выходит. Тем более по условиям задачи топика данные будут хранится за определенный период и потом выносится с ХД. Так что думаю аналог терадаты должен справится за более разумную стоимость.

P.M. А все таки кроме меня кто нибудь на форуме работал с субд такого класса? очень бы хотелось провести обмен опытом.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37718650
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSApexСпрошу чисто для "проформу": Teradata уже рассматривли?
Для задач хранения и анализа machine generate данных imho терадата жирно выходит.
Ну, Терадата тоже разная бывает, хотя в целом соглашусь.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37718897
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexДанные точно необходимо загружать именно в реальном времени или небольшой временной lag допустим? Я очень сомневаюсь, что данные и правда нужны пользователям в ту же секунду, в которую они поступили для загрузки.
Если lag допустим, то писать можно куда угодно, хоть в плоский файл, который после достижения оптимального размера (объем\кол-во строк) скармливается загрузчику и тогда никаких проблем не будет, никакой Оракл, Экзадат тут не нужны.

На счет IQ соглашусь, не стоит оно тех денег, которые за нее просят.

Лаг допустим конечно, в разных типах данных разный, но допустим
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37718898
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexСпрошу чисто для "проформу": Teradata уже рассматривли?

Рассматривали, в короткий список не вошла.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37718912
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сегодня состоялся форум Bg Data, было довольно интересно. Удалось даже пообщаться с CTO и сооснователем Greenplum, Люком Лонерганом. Молодцы EMC, что пригласили такого человека. Сильный ход. У них несколько коммерческих инсталляций в России, у IBM и HP пока нет ни одной, но с ними тоже интересно было познакомиться. В голове каша, ну в общем примерно паритет. Вертика правда со своей лицензионной политикой конечно шокирует, но в итоге обещают быть не дороже конкурентов. Терадаты кстати почему-то не было, остальные были все.
Sybase порадовал особенно, в конце был розыгрыш призов, так вот от Сайбейза была клава беспроводная с мышкой от Логитека, так хотелось выиграть такой подарок, на всю жизнь память бы осталась, это вот Приз настоящий, не то что другие, всякая фигня, электронные книги и Айпад :)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37721850
bmv_rus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VovakaНу и конечно стоимость лицензий, 40 тыщ баксов каждое второе ядро + 50 за каждый сервер в мультиплексе, начиная со второго.

Это где такие цены ?

Мне показывали офиц. саповский прайс, там за CPU раза в 4 дороже, причем в евро.
И за мультиплексы, за партицирование, за шифрование данных и т.п. дополнительно.

Хотя думаю Vertica vs Netezza vs Grennplum это решения тоже крайне недешевые.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37721851
bmv_rus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VovakaExadata дороговата зараза.
а можно поподробнее ?
От 2х MUSD или более?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37722670
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
bmv_rusVovakaНу и конечно стоимость лицензий, 40 тыщ баксов каждое второе ядро + 50 за каждый сервер в мультиплексе, начиная со второго.

Это где такие цены ?

Мне показывали офиц. саповский прайс, там за CPU раза в 4 дороже, причем в евро.
И за мультиплексы, за партицирование, за шифрование данных и т.п. дополнительно.

Хотя думаю Vertica vs Netezza vs Grennplum это решения тоже крайне недешевые.

А может и в Евро. Они считют по ядрам, а не по процам, причем по дефолту 50% скидка на интеловских процах., так что за CPU видимо и выходило дороже. Но в любом случае ценних там негуманный.

Greenplum и Netezza в лоб значительно дешевле, вот Vertica учудила конечно, если первые 2 лицензируют ТБ в сжатом виде, то Vertica сырой, да к тому же в виде текста. Это жесть. Вот выдержка из их доки:

VerticaThe data sampled for the estimate is treated as if it had been exported from the database in text format (such as printed from vsql). This means that Vertica evaluates the data type footprint sizes as follows:

vsql is a character-based, interactive, front-end utility that lets you type SQL statements and see the results. It also provides a number of meta-commands and various shell-like features that facilitate writing scripts and automating a variety of tasks.

•Strings and binary types (CHAR, VARCHAR, BINARY, VARBINARY) are counted as their actual size in bytes using UTF-8 encoding.
•Numeric data types are counted as if they had been printed. Each digit counts as a byte, as does any decimal point, sign, or scientific notation. For example, -123.456 counts as eight bytes (six digits plus the decimal point and minus sign).
•Date/time data types are counted as if they had been converted to text, including any hyphens or other separators. For example, a timestamp column containing the value for noon on July 4th, 2011 would be 19 bytes. As text, vsql would print the value as 2011-07-04 12:00:00, which is 19 characters, including the space between the date and the time.
NOTE: Each column has an additional byte for the column delimiter.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37722677
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
bmv_rusVovakaExadata дороговата зараза.
а можно поподробнее ?
От 2х MUSD или более?

Ну подробно я знаю, но если рассматривать 16ТБ хранилище, то примерно так и будет
...
Рейтинг: 0 / 0
25 сообщений из 93, страница 2 из 4
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Vertica vs Netezza vs Grennplum
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]