powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Vertica vs Netezza vs Grennplum
93 сообщений из 93, показаны все 4 страниц
Vertica vs Netezza vs Grennplum
    #37712997
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кто что может рассказать про данные системы? Сильные и слабые стороны интересуют.
Объем ХД планируется до сотни ТБ через несколько лет, одно из основных требований, обеспечение online доступности данных, т.е. данные должны вставляться практически постоянно "маленькими" порциями и тут же быть доступны для анализа.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713026
Фотография Ggg_old
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
при таком объеме хранилища включите в рассмотрение Sybase IQ, как коммерческую систему. Я бы не рискнул своей пятой точкой взлетать на бесплатных системах с такими хранилищами и дело даже не в технических характеристиках.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713103
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну во первых они все далеко не бесплатны. IBM Netezza, EMC Greenplum, HP Vertica. Стоимость вполне сопоставима с IQ, хоть и по разному считается. Хотя Sybase IQ скорее всего будет дороже на кластерых решениях, ну и минусы у него есть: один писатель, который не в состоянии обеспечить realtime вставку данных небольшими порциями, ну и отсутствие MPP. Sybase IQ долго гоняли в хвост и в гриву, он не просто не тянет...
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713342
Фотография Ggg_old
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
я с IQ не работал, но в описании нововведений версии IQ15 заявлалась поддержка множественных закгрузчиков данных, возможность конкурентной параллельной загрузки с удаленных клиентов а не только с центрального сервера и еще кучу плюшек. Возможно, что спецы, которые сталкивались с этим сервером на практике прокомментируют.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713387
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Последнюю редакцию не щупал, но все равно МРР там нет, есть параллелизация запросов между серверами, а так все равно кто-то один обрабатывает. Ограничение по записи никуда не делось, одна таблица - один писатель. Потом вставки при росте объема таблиц начинают тормозить и видимо никуда не деться, т.к. индексы перестраиваются. Джойны больших таблиц опять же смерти подобно. Ну и конечно стоимость лицензий, 40 тыщ баксов каждое второе ядро + 50 за каждый сервер в мультиплексе, начиная со второго.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713404
Фотография Ggg_old
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
хмм, я тут погуглил, в документе http://www.sybase.cz/uploads/IQ_Benchmark_15x_12x.pdf
Performance Comparison of Sybase IQ 15.x and IQ 12.x page 2Enhanced parallelism within queries – previous versions of Sybase IQ had limited ability to utilize many CPUs while running a single query. Sybase IQ 15.x significantly increases the types of operators, that are automatically parallelized by the query engine. By default, this feature is enabled and requires no change in query syntax or tuning.

Сейчас они стали раздавать девелопер версию IQ15, будет интерес, погоняете.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713482
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
http://www.sybase.ru/system/files/pdf/sybase_iq_scaling_wp_ru_lo.pdf

Sybase.ruПреимущества подхода shared-everything для MPP архитектуры
В отличие от других MPP-архитектур, реализованная в Sybase IQ технология PlexQ динамически управляет обработкой запросов, распределяя ее между множеством узлов, благодаря чему достигается повышение быстродействия, упрощение внедрения и снижение эксплуатационных расходов

Они называют это преимуществом.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713769
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VovakaКто что может рассказать про данные системы? Сильные и слабые стороны интересуют.
Объем ХД планируется до сотни ТБ через несколько лет, одно из основных требований, обеспечение online доступности данных, т.е. данные должны вставляться практически постоянно "маленькими" порциями и тут же быть доступны для анализа.Ни одна из этих систем не предназначена для Vovakaвставляться практически постоянно "маленькими" порциямиЭто ведь по сути OLTP, а все эти системы заточены под пакетную загрузку. Я бы рассмотрел Exadata.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713774
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну и еще расскажите, чем будете данные гнать в хранилище. Это важно.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713854
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Exadata дороговата зараза. Льем в основном Талендом, кстати вот Вертике пофиг например совсем, что одиночные инсерты, что батчинсерты, что балклоад. Архитектура с областью WOS в памяти к этому индифферентна, вставки мгновенные. Сейчас тестим Нетиззу, тоже результаты впечатляющие с их nzload, Sybase IQ отдыхает в сторонке.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713897
Vovaka,

1. По PlexQ в IQ 15.4 уже увидели.

2. По поводу загрузки еденичных операций в IQ посмотрите "RTL to IQ"

3. Скорость вставки vs размер таблицы, кол-во индексов, джойн больших таблиц.
IQ - это инструмент (как и все остальные), но в данном конкретном случае для аналитики. Он не сможет заменить руки людей, которые проектируют ХД.

4. Подумайте - Sybase IQ используют в 4 раза больше компаний, чем у всех остальных поколоночных СУБД вместе взятых.

5. Цена за 100Тб думаете будет маленькой у кого-то более-менее промышленного?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37713919
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovaka,

Давайте сначала. Что вы льете? Ведь должен быть механизм захвата изменений? Сам Talend, насколько я знаю, захватывать изменения не умеет. А объемы у вас некислые.
А вообще:
http://www.folkstalk.com/2009/12/netezza-nzload-utility.html Nzload command is used to load bulk data Все эти системы
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714043
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinVovaka,

Давайте сначала. Что вы льете? Ведь должен быть механизм захвата изменений? Сам Talend, насколько я знаю, захватывать изменения не умеет. А объемы у вас некислые.
А вообще:
http://www.folkstalk.com/2009/12/netezza-nzload-utility.html Nzload command is used to load bulk data Все эти системы

95% данных - machine generated, тут нет захвата изменений, это различные события, идущие из сотен источников в онлайне.

Про Нетиззу имелл ввиду, что если например грузить в Sybase IQ 1 ГБ одним куском, а потом зазбить на 100 частей и прогрузить 100 раз, то получим увеличение суммарного времени загрузки раз в 50, а в Нетиззе практически одинаково + во всех перечисленных системах можно грузить в одну таблицу несколькими потоками, в IQ нельзя.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714053
Фотография Ggg_old
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
по теме прямого сравнения кстати материала маловато.
вот удалось нарыть хоть что-то: http://www.think88.com/Examples/Think88_SybaseIQ_wp.pdf
хоть и не шибко жирно
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714060
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Забыл парольVovaka,

1. По PlexQ в IQ 15.4 уже увидели.

2. По поводу загрузки еденичных операций в IQ посмотрите "RTL to IQ"

3. Скорость вставки vs размер таблицы, кол-во индексов, джойн больших таблиц.
IQ - это инструмент (как и все остальные), но в данном конкретном случае для аналитики. Он не сможет заменить руки людей, которые проектируют ХД.

4. Подумайте - Sybase IQ используют в 4 раза больше компаний, чем у всех остальных поколоночных СУБД вместе взятых.

5. Цена за 100Тб думаете будет маленькой у кого-то более-менее промышленного?

Ну Sybase IQ первый и когда то был фактически один такой, поэтому и клиентов много. Я ж не говорю, что он плохой, просто из-за своей архитектуры он наши потребности не сможет обеспечить по созданию операционного ХД, да и накладно получится. Вот для BI, как витрина над сырыми данными самое оно было бы.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714068
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ggg_oldпо теме прямого сравнения кстати материала маловато.
вот удалось нарыть хоть что-то: http://www.think88.com/Examples/Think88_SybaseIQ_wp.pdf
хоть и не шибко жирно

Спасибо! Этого материала не встречал.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714082
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovaka95% данных - machine generated, тут нет захвата изменений, это различные события, идущие из сотен источников в онлайне.
О. Вот это интересно. А вам их тупо складировать надо или как-то агрегировать?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714119
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
По разному, и так и так. И еще желательно бы иметь возможность по разной стоимости хранить холодные и теплые данные.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714550
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vertica сейчас использую, Netezza видел со стороны. У каждой есть свои интересные особенности. Imho Vertica удачнее смотрится на проектах, где невозможно спрогнозировать рост данных в будущем, это например стартап онлайн игры или аналитического ресурса, где на момент запуска 3 сервера в кластере будет хватать выше крыши, а через год уже может понадобиться значительно нарастить мощность и объем ХД. Здесь круто, что можно не останавливая сервер подключать в кластер новые ноды. Но ценой является дорогая стоимость тб. Netezza же наоборот хороша там, где уже состоялись объемы данных и требуется создание промышленного хранилища, заточенного под эффективное хранение и доступ к данным без затрат на сопровождение. Фактически это уже готовый настроенный программно аппаратный ящик, не требующий глубоких знаний по тюнингу и администрированию. Но здесь платой является то, что апгрейт системы выливается в замену всего ящика и острову ХД на момент замены.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714565
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovaka,

а что за проект?
какие данные?

и 100 терабайт — это сколько в записях?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714575
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
я к тому, что терабайты-то разные бывают.
У меня например вот 53 миллиарда записей, но терабайт только 4, ибо компрессия.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714720
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinVovaka,

Давайте сначала. Что вы льете? Ведь должен быть механизм захвата изменений? Сам Talend, насколько я знаю, захватывать изменения не умеет. А объемы у вас некислые.
А вообще:
кстати коммерческий Talend замечательно CDC поддерживает для всех основных вендоров.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714737
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSAlexander RyndinVovaka,

Давайте сначала. Что вы льете? Ведь должен быть механизм захвата изменений? Сам Talend, насколько я знаю, захватывать изменения не умеет. А объемы у вас некислые.
А вообще:
кстати коммерческий Talend замечательно CDC поддерживает для всех основных вендоров.Ну для СУБД Oracle Talend использует LogMiner, либо триггеры, что, как бы, не очень хорошо - тормоза еще те.
MSSQL 2005 я не понимаю, как они могут поддерживать, кроме как с помощью триггеров.
Ну и давайте ссылку про "замечательно", а то как-то оно голословно ;)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714747
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSAlexander RyndinVovaka,

Давайте сначала. Что вы льете? Ведь должен быть механизм захвата изменений? Сам Talend, насколько я знаю, захватывать изменения не умеет. А объемы у вас некислые.
А вообще:
кстати коммерческий Talend замечательно CDC поддерживает для всех основных вендоров.
Не мешай людям продавать Golden Gate!
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714755
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexНе мешай людям продавать Golden Gate!Заметь, первым это слова сказал ты. Не я.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37714865
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinASCRUSпропущено...

кстати коммерческий Talend замечательно CDC поддерживает для всех основных вендоров.Ну для СУБД Oracle Talend использует LogMiner, либо триггеры, что, как бы, не очень хорошо - тормоза еще те.
MSSQL 2005 я не понимаю, как они могут поддерживать, кроме как с помощью триггеров.
Ну и давайте ссылку про "замечательно", а то как-то оно голословно ;)
Не дам. Тема не про это. Что умеет субд по cdc, то и поддерживается. Если ничего не умеет, разруливается дедовским timestamp и триггерами. А в mssql штатно cdc через триггера сделано. Я плотно работаю с Talend, будет время, потом как нибудь расскажу.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715052
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZivVovaka,

а что за проект?
какие данные?

и 100 терабайт — это сколько в записях?

100ТБ - это оценочная прикидка года через 3.

Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100 млн записей в сутки, далее будет только расти, сырые данные нужны как минимум месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов держать. Есть еще нетипичные примеры, когда записей в секунду сейчас порядка 200 тысяч . Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего агрегировать, нужен просто быстрый поиск.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715246
mijatovic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Интересная задача и OLTP и DWH в одном.
В случае GreenPlum и Netezza будут проблемы с загрузкой одиночных записей. ETL процесс на этих системах отдельная задача(про Sybase ничего сказать не могу). Для этого больше подходит Oracle или MS SQL SERVER. Если рассматривать ExaData - то хранить 100 Тб на ней действительно дороговато(кстати, учтен ли рост притока данных с течением времени?). Тут надо думать над 2 уровнем хранилища. Если по историческим данным надо проводить аналитику - можно задуматься над hadoop. Если нужны select only операции (применимо к историческим данным), то это какая-нибудь NoSQL база. В ExaData,кстати, есть гибридная компрессия, которая на некотором пофиле данных весьма не плохо жмет (во что превратятся 100 Тб - это еще вопрос). Тут надо говорить к контектсте того сколько стоит хранить 1 Тб "сырых" данных
Вот пакетик, которым можно оценить сжатие, попробуйте:
http://uhesse.com/2011/09/12/dbms_compression-example
http://www.morganslibrary.com/reference/pkgs/dbms_compression.html
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715276
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
On 03/21/2012 11:21 AM, Vovaka wrote:

> Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100
> млн записей в сутки, далее будет только расти, сырые данные нужны как минимум
> месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов

3 миллиарда в месяц.

> держать. Есть еще нетипичные примеры, когда записей *в секунду *сейчас порядка
> *200 тысяч*. Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего
> агрегировать, нужен просто быстрый поиск.

17 млрд записей в сутки -- это интересно. Это сколько же в месяц ? 510
миллиардов. Солидно.

Надо оборудование хорошее для этого, кластерок этак машин на ... --
блин, 80 получается. Это уже не шутки, это много.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715309
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mijatovicИнтересная задача и OLTP и DWH в одном.
В случае GreenPlum и Netezza будут проблемы с загрузкой одиночных записей. ETL процесс на этих системах отдельная задача(про Sybase ничего сказать не могу). Для этого больше подходит Oracle или MS SQL SERVER. Если рассматривать ExaData - то хранить 100 Тб на ней действительно дороговато(кстати, учтен ли рост притока данных с течением времени?). Тут надо думать над 2 уровнем хранилища. Если по историческим данным надо проводить аналитику - можно задуматься над hadoop. Если нужны select only операции (применимо к историческим данным), то это какая-нибудь NoSQL база. В ExaData,кстати, есть гибридная компрессия, которая на некотором пофиле данных весьма не плохо жмет (во что превратятся 100 Тб - это еще вопрос). Тут надо говорить к контектсте того сколько стоит хранить 1 Тб "сырых" данных
Вот пакетик, которым можно оценить сжатие, попробуйте:
http://uhesse.com/2011/09/12/dbms_compression-example
http://www.morganslibrary.com/reference/pkgs/dbms_compression.html

Ну в общем 2 уровня скорее всего и будет, а то еще и третий, под холодные данные
Одиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком, и тут если их так и грузить, то IQ сильно просаживается, ему их клеить нужно и чем больше тем лучше, что не всегда уже реализуемо малой кровью
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715328
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZivOn 03/21/2012 11:21 AM, Vovaka wrote:

> Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100
> млн записей в сутки, далее будет только расти, сырые данные нужны как минимум
> месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов

3 миллиарда в месяц.

> держать. Есть еще нетипичные примеры, когда записей *в секунду *сейчас порядка
> *200 тысяч*. Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего
> агрегировать, нужен просто быстрый поиск.

17 млрд записей в сутки -- это интересно. Это сколько же в месяц ? 510
миллиардов. Солидно.

Надо оборудование хорошее для этого, кластерок этак машин на ... --
блин, 80 получается. Это уже не шутки, это много.


Ну это исключение конечно, там несколько колонок всего, да и жмется отлично
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715360
mijatovic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
авторОдиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком
Вот с этим Oracle замечательно справляется.
Кстати, а данные приходят чистые?
Не думали над тем, что бы создать Stage area перед загрузкой данных, которая будет чистить, конкатенировать данные, и только потом грузить оптимальным для базы способом?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715365
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mijatovicавторОдиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком
Вот с этим Oracle замечательно справляется.
Кстати, а данные приходят чистые?
Не думали над тем, что бы создать Stage area перед загрузкой данных, которая будет чистить, конкатенировать данные, и только потом грузить оптимальным для базы способом?

С этим проблем как раз совсем нет в подавляющем большинстве случаев, machine generated - все чисто.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715388
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
> Для этого больше подходит Oracle или MS SQL SERVER.

Вот уж что меньше всего подходит, так эти два.

Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715406
mijatovic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
авторВот уж что меньше всего подходит, так эти два.
Я имел ввиду загрузку множества одиночных записей, возможно был не правильно понят.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715645
Vovaka
Ну в общем 2 уровня скорее всего и будет, а то еще и третий, под холодные данные
Одиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком, и тут если их так и грузить, то IQ сильно просаживается, ему их клеить нужно и чем больше тем лучше, что не всегда уже реализуемо малой кровью

1. Смотрели IQ 12.7? 15-ка быстрее грузит.
2. Грузили из файлов LOADом? Файлы "fully delimited" (в параллели всё вгружалось)? 200k записей /сек для IQ на нормальной машине - это совсем не много.
3. Если файлов много, то скорость снижается тогда, когда на таблице много индексов HG, Unique HG, PK. Но тогда одни LOADом можно сразу несколько файлов грузить за раз. Или уменьшить кол-во индексов с типом HG - скорость вырастёт прилично. Можно использовать промежуточный Staging, например, в котором минимум индексов с типом HG, а потом всё сбрасывать в нормальные таблички.
4. Файлы формата binary вгружаются намного быстрее чем ASCII. Откуда файлы приходят - можно форматом управлять?
5. Можно побить на партиции (отдельная опция), а можно "бесплатно" сделать отдельные таблички и потом "create view ... select union all". Такая вьюха отрабатывается IQ как "partitioned table" и работает ещё быстрее, чем штатные партиции.
6. Minimize_Storage или IQ UNIQUE стоял везде или выборочно? Тоже влияет на скорость загрузки - сколько колонок в процессе загрузки дополнительно оптимизируется + к компрессии.
7. Полючить представительство Sybase - для такой интересной задачки они не откажут в помощи :)

Короче - поля для деятельности достаточно ...
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715870
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Забыл парольVovakaНу в общем 2 уровня скорее всего и будет, а то еще и третий, под холодные данные
Одиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком, и тут если их так и грузить, то IQ сильно просаживается, ему их клеить нужно и чем больше тем лучше, что не всегда уже реализуемо малой кровью

1. Смотрели IQ 12.7? 15-ка быстрее грузит.
2. Грузили из файлов LOADом? Файлы "fully delimited" (в параллели всё вгружалось)? 200k записей /сек для IQ на нормальной машине - это совсем не много.
3. Если файлов много, то скорость снижается тогда, когда на таблице много индексов HG, Unique HG, PK. Но тогда одни LOADом можно сразу несколько файлов грузить за раз. Или уменьшить кол-во индексов с типом HG - скорость вырастёт прилично. Можно использовать промежуточный Staging, например, в котором минимум индексов с типом HG, а потом всё сбрасывать в нормальные таблички.
4. Файлы формата binary вгружаются намного быстрее чем ASCII. Откуда файлы приходят - можно форматом управлять?
5. Можно побить на партиции (отдельная опция), а можно "бесплатно" сделать отдельные таблички и потом "create view ... select union all". Такая вьюха отрабатывается IQ как "partitioned table" и работает ещё быстрее, чем штатные партиции.
6. Minimize_Storage или IQ UNIQUE стоял везде или выборочно? Тоже влияет на скорость загрузки - сколько колонок в процессе загрузки дополнительно оптимизируется + к компрессии.
7. Полючить представительство Sybase - для такой интересной задачки они не откажут в помощи :)

Короче - поля для деятельности достаточно ...

да, 12.7
На все не буду отвечать, понятно, что можно оптимизировать еще, но лицензии ...

мультиплекс из трех серверов, каждый 2 проца х 6 ядер, считаем 36 ядер, из них каждое второе стоит 40 тыщ + 50 тыщ х 2 для мультиплекса итого 820 тыщ + 20% ТП, итого лям. Для сравнения Netezza примерно в той же конфигурации почти в 3 раза дешевле, причем уже с железом. Ну и Sybase CIS всех своих спецов давно профукал и продолжает это с завидным постоянством делать. Майкл в своем репертуаре. В общем ну их в сад :)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37715917
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Все таки хочется узнать побольше именно про 3 озвученные платформы. Остальное уже за рамками топика.

Завтра кстати все выступают на Big Data, послушаем, может чего интересного расскажут :)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37716619
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Данные точно необходимо загружать именно в реальном времени или небольшой временной lag допустим? Я очень сомневаюсь, что данные и правда нужны пользователям в ту же секунду, в которую они поступили для загрузки.
Если lag допустим, то писать можно куда угодно, хоть в плоский файл, который после достижения оптимального размера (объем\кол-во строк) скармливается загрузчику и тогда никаких проблем не будет, никакой Оракл, Экзадат тут не нужны.

На счет IQ соглашусь, не стоит оно тех денег, которые за нее просят.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37716635
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Спрошу чисто для "проформу": Teradata уже рассматривли?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37716672
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexДанные точно необходимо загружать именно в реальном времени или небольшой временной lag допустим? Я очень сомневаюсь, что данные и правда нужны пользователям в ту же секунду, в которую они поступили для загрузки.
Если lag допустим, то писать можно куда угодно, хоть в плоский файл, который после достижения оптимального размера (объем\кол-во строк) скармливается загрузчику и тогда никаких проблем не будет, никакой Оракл, Экзадат тут не нужны.
согласен. При использовании etl этот вопрос решается без проблем. на самом деле данные с аппаратуры идут пакетами в разных форматах. В пакете может быть и 1 тысяча и 100 тысяч записей. пакет с помощью etl преобразовывается в плоский файл и загружается с использованием пакетной загрузки субд. Netezza и Vertica позволяют грузить эти пакеты параллельно с множества устройств, в IQ придется результат парсинга склеивать перед загрузкой, что означает узкое место и дополнительные телодвижения на etl, чтобы оптимизировать это. Проблема здесь в том, что например если одно устройство генерирует данных в разы больше других, то равномерность поступления данных в ХД от устройств может нарушаться, где по одному устройству данные за последние 5 мин уже доступны, а по другому нет. Но естественно все решаемо ;)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37716683
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexСпрошу чисто для "проформу": Teradata уже рассматривли?
Для задач хранения и анализа machine generate данных imho терадата жирно выходит. Тем более по условиям задачи топика данные будут хранится за определенный период и потом выносится с ХД. Так что думаю аналог терадаты должен справится за более разумную стоимость.

P.M. А все таки кроме меня кто нибудь на форуме работал с субд такого класса? очень бы хотелось провести обмен опытом.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37718650
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSApexСпрошу чисто для "проформу": Teradata уже рассматривли?
Для задач хранения и анализа machine generate данных imho терадата жирно выходит.
Ну, Терадата тоже разная бывает, хотя в целом соглашусь.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37718897
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexДанные точно необходимо загружать именно в реальном времени или небольшой временной lag допустим? Я очень сомневаюсь, что данные и правда нужны пользователям в ту же секунду, в которую они поступили для загрузки.
Если lag допустим, то писать можно куда угодно, хоть в плоский файл, который после достижения оптимального размера (объем\кол-во строк) скармливается загрузчику и тогда никаких проблем не будет, никакой Оракл, Экзадат тут не нужны.

На счет IQ соглашусь, не стоит оно тех денег, которые за нее просят.

Лаг допустим конечно, в разных типах данных разный, но допустим
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37718898
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexСпрошу чисто для "проформу": Teradata уже рассматривли?

Рассматривали, в короткий список не вошла.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37718912
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сегодня состоялся форум Bg Data, было довольно интересно. Удалось даже пообщаться с CTO и сооснователем Greenplum, Люком Лонерганом. Молодцы EMC, что пригласили такого человека. Сильный ход. У них несколько коммерческих инсталляций в России, у IBM и HP пока нет ни одной, но с ними тоже интересно было познакомиться. В голове каша, ну в общем примерно паритет. Вертика правда со своей лицензионной политикой конечно шокирует, но в итоге обещают быть не дороже конкурентов. Терадаты кстати почему-то не было, остальные были все.
Sybase порадовал особенно, в конце был розыгрыш призов, так вот от Сайбейза была клава беспроводная с мышкой от Логитека, так хотелось выиграть такой подарок, на всю жизнь память бы осталась, это вот Приз настоящий, не то что другие, всякая фигня, электронные книги и Айпад :)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37721850
bmv_rus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VovakaНу и конечно стоимость лицензий, 40 тыщ баксов каждое второе ядро + 50 за каждый сервер в мультиплексе, начиная со второго.

Это где такие цены ?

Мне показывали офиц. саповский прайс, там за CPU раза в 4 дороже, причем в евро.
И за мультиплексы, за партицирование, за шифрование данных и т.п. дополнительно.

Хотя думаю Vertica vs Netezza vs Grennplum это решения тоже крайне недешевые.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37721851
bmv_rus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VovakaExadata дороговата зараза.
а можно поподробнее ?
От 2х MUSD или более?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37722670
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
bmv_rusVovakaНу и конечно стоимость лицензий, 40 тыщ баксов каждое второе ядро + 50 за каждый сервер в мультиплексе, начиная со второго.

Это где такие цены ?

Мне показывали офиц. саповский прайс, там за CPU раза в 4 дороже, причем в евро.
И за мультиплексы, за партицирование, за шифрование данных и т.п. дополнительно.

Хотя думаю Vertica vs Netezza vs Grennplum это решения тоже крайне недешевые.

А может и в Евро. Они считют по ядрам, а не по процам, причем по дефолту 50% скидка на интеловских процах., так что за CPU видимо и выходило дороже. Но в любом случае ценних там негуманный.

Greenplum и Netezza в лоб значительно дешевле, вот Vertica учудила конечно, если первые 2 лицензируют ТБ в сжатом виде, то Vertica сырой, да к тому же в виде текста. Это жесть. Вот выдержка из их доки:

VerticaThe data sampled for the estimate is treated as if it had been exported from the database in text format (such as printed from vsql). This means that Vertica evaluates the data type footprint sizes as follows:

vsql is a character-based, interactive, front-end utility that lets you type SQL statements and see the results. It also provides a number of meta-commands and various shell-like features that facilitate writing scripts and automating a variety of tasks.

•Strings and binary types (CHAR, VARCHAR, BINARY, VARBINARY) are counted as their actual size in bytes using UTF-8 encoding.
•Numeric data types are counted as if they had been printed. Each digit counts as a byte, as does any decimal point, sign, or scientific notation. For example, -123.456 counts as eight bytes (six digits plus the decimal point and minus sign).
•Date/time data types are counted as if they had been converted to text, including any hyphens or other separators. For example, a timestamp column containing the value for noon on July 4th, 2011 would be 19 bytes. As text, vsql would print the value as 2011-07-04 12:00:00, which is 19 characters, including the space between the date and the time.
NOTE: Each column has an additional byte for the column delimiter.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37722677
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
bmv_rusVovakaExadata дороговата зараза.
а можно поподробнее ?
От 2х MUSD или более?

Ну подробно я знаю, но если рассматривать 16ТБ хранилище, то примерно так и будет
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37722779
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovakabmv_rusпропущено...

а можно поподробнее ?
От 2х MUSD или более?

Ну подробно я НЕ знаю, но если рассматривать 16ТБ хранилище, то примерно так и будет
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37724292
Для будующих посетителей треда - технические вопросы по Netezza можно слать мне
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37730211
Goster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я думаю, что все все три девайса справятся с поставленной задачей. На счет невозможности загрузки малых порций данных - это звучит странно, т.к. не вижу предпосылок для этого.
Из объективных преимуществ могу выделить возможность для Netezzа поставить High Capacity Appliance для неактуальных данных, которые необходимо держать в доступности. Там суть в том, что больше дисков-меньше блейдом, соответственно стоимость терабайта значительно ниже, но при этом данные остаются доступные, хотя и более медленны в обработке. Иначе 100 Тб хранить весьма дорого.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37733250
Нетиззу отлично можно кормить малыми и частыми порциями данных. Это можно делать как используя частую загрузку файлов или через кормежку из юниксовых пайпов.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37753400
Вертика лицензирует не исходные данные, а размер базы, где данные уже хранятся в сжатом виде.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37753456
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Виталий Гонтовой,

Vertica лицензируется конкретно на чистые исходные данные, из расчета того, сколько бы они весили в формате CSV, даже с учетом разделителей полей. Это факт, потому что я напрямую общаюсь с компанией Vertica и политику лицензирования знаю. Итого если нам нужно хранить в ХД данных, которые весят в CSV 5 тб, нам надо будет купить лицензию на 5 тб. База реально при этом займет где то 2 тб (в среднем 4 раза сжатие + данные проекций). Понятно, что цена получается не самая демократическая, но она значительно ниже Терадаты. А по гибкости значительно выше своих конкурентов. Ибо у Netezza покупается шкаф и если место на нем кончилось, шкаф нужно выбросить и купить более емкий. А у GreenPlum по моему нужно лицензировать все место, что доступно на дисках кластера, а значит если хотим поставить новый сегмент, надо докупить на новый объем лицензий. Здесь Vertica дает нулевую стоимость масштабирования - можно в кластер сколько угодно добавлять новых сегментов, увеличивая производительность за счет прибавления процессорных мощностей, RAM и более размазанного хранения данных по сегментам. К примеру, купив лицензий на 5 тб, мы можем собрать из своих 10 серверов кластер, где на каждый сервер придется по 400 гигабайт сжатых данных, в итоге штука эта будет работать в реалтайм, как на загрузку так и на любые запросы любой сложности. Если на серверах еще поставить по 96 гигов памяти, то оно вообще просто будет всегда работать в миллисекундах, фактически как inmemory, держа все горячие данные в кэше. Итого, что по механизму загрузки WOS/ROS, что по оптимизатору, что по лицензионной политике - Vertica хороша для realtime и стартапов, кто грузит данные раз в сутки или раз в неделю, у кого устоявшиеся объемы ХД, могут спокойно купить Netezza и забыть про любой геммор администрирования, у кого объемы плавающие и нужна гибкая политика хранения и распределения данных, очень хорошо будет смотреться GreenPlum.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37753520
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUS Итого если нам нужно хранить в ХД данных, которые весят в CSV 5 тб, нам надо будет купить лицензию на 5 тб. База реально при этом займет где то 2 тб (в среднем 4 раза сжатие + данные проекций). Понятно, что цена получается не самая демократическая, но она значительно ниже Терадаты.
Значительно - это на сколько? Если инфа не для форума, контакты в профиле.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37758271
авторИбо у Netezza покупается шкаф и если место на нем кончилось, шкаф нужно выбросить и купить более емкий

Не совсем так.
Исторически шкаф выкупали по фиксированной для заказчика цене. Получалось выгодно и более быстро/безболезненно чем реконфигурация (чисто теоретически, давайте допустим, что при реконфигурациях бывают проблемы, хотя в предпродажах такое предположение это конечно же полный нонсенс).
При замене серверов старый продолжает работать до полной синхронизации нового, а подмена одного на другой проходит незаметно.
Сейчас эта модель проходит переработку в связи с юридическими особенностями IBM, и она поменяется - я верю и надеюсь что в лучшую сторону.
Пока же каждому заказчику предлагаются индивидуальные (насколько я знаю, не худшие чем ранее) условия.
Насчет возможности добавлять и убавлять железо, докупать лицензии по терабайтам - это тоже модель.
Хотя хотел бы в этом месте предположить, что возможно люди проводят кучу времени в бенчмарк центрах за балансировкой железа не зря, а иначе как добиться оптимальной цены за перформанс.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37758276
Простите за саморекламу, но если кому-то хочется побольше узнать о Netezza, собираюсь выкладывать побольше информации вот сюда.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37759725
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Андрей ВыходцевПростите за саморекламу, но если кому-то хочется побольше узнать о Netezza, собираюсь выкладывать побольше информации вот сюда.
Сразу вопрос на миллион. Как в нетиззу залить varchar(max) из сиквела?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37760186
Ivan DurakСразу вопрос на миллион. Как в нетиззу залить varchar(max) из сиквела?

Из SQL'a = из MS SQL Server'a? или вопрос как в SQL сделать инсерт в табличку с полем varchar(64000) ?

если первое, то через а) выгрузку в файл, который потом загрузить через nzload или external table или b) через стороннюю прожку, например IBM datamovement tool http://www.ibm.com/developerworks/data/library/techarticle/dm-0906datamovement/ или же самому на чем угодно - могу сваять пример на python + odbc если надо.

Если второе то create table t(x varchar(64000)); insert into t values ('..64000 символов..);

Можете написать мне на емейл, помогу, или давайте тут откроем новый топик.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37760194
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
http://msdn.microsoft.com/ru-ru/library/ms176089.aspx varchar [ ( n | max ) ]
Строковые данные переменной длины не в Юникоде. Аргумент n определяет длину строки и должен иметь значение от 1 до 8000. Значение max указывает, что максимальный размер при хранении составляет 2^31-1 байт (2 ГБ) . Размер хранения — это фактическая длина введенных данных плюс 2 байта. Синонимами по стандарту ISO для типа varchar являются типы charvarying или charactervarying.
Если я правильно понимаю, то это CLOB с точки зрения Oracle.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37760246
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander Ryndin http://msdn.microsoft.com/ru-ru/library/ms176089.aspx varchar [ ( n | max ) ]
Строковые данные переменной длины не в Юникоде. Аргумент n определяет длину строки и должен иметь значение от 1 до 8000. Значение max указывает, что максимальный размер при хранении составляет 2^31-1 байт (2 ГБ) . Размер хранения — это фактическая длина введенных данных плюс 2 байта. Синонимами по стандарту ISO для типа varchar являются типы charvarying или charactervarying.
Если я правильно понимаю, то это CLOB с точки зрения Oracle.
Понял то ты правильно, вот только причем тут Оракл?:)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37760261
Тогда здесь конфуз.
Netezza для анализа реляционных данных. Строки там до 64к.
Для массивно-параллельного анализа, хранения и обработки больших текстов - IBM InfoSphere BigInsights.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37760276
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexAlexander Ryndinпропущено...

Если я правильно понимаю, то это CLOB с точки зрения Oracle.
Понял то ты правильно, вот только причем тут Оракл?:)Потому что у того, кто задал вопрос есть Oracle background, поэтому на примере Oracle.
Ты хочешь об этом поговорить?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37760679
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Андрей ВыходцевТогда здесь конфуз.
Netezza для анализа реляционных данных. Строки там до 64к.
Для массивно-параллельного анализа, хранения и обработки больших текстов - IBM InfoSphere BigInsights.
Вот именно что конфуз. У нас есть нетизза. Есть данные в хранилище которые мы в нетиззу грузим. В данных есть поля varchar(max) в которых есть данные длиннее чем 64к. Бизнес юзеры с упорством достойным лучшего применения твердят: "Мы хотим анализировать эти данных, мы понимаем что они длинные, но хотим и баста!". Я думал, может есть какой кэйс обходной позволяющий как-то это обходить??
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37760745
авторВот именно что конфуз. У нас есть нетизза. Есть данные в хранилище которые мы в нетиззу грузим. В данных есть поля varchar(max) в которых есть данные длиннее чем 64к. Бизнес юзеры с упорством достойным лучшего применения твердят: "Мы хотим анализировать эти данных, мы понимаем что они длинные, но хотим и баста!". Я думал, может есть какой кэйс обходной позволяющий как-то это обходить??

Да, есть. Но использовать инструмент не по назначению всегда неудобно, как, например, ковыряться микроскопом в носу.

Идея такова - при заливке данных под каждый клоб делать табличку, на которую ссылаться по суррогатному ключу. В табличке данные будут иметь вид: CLOB_ID int, CHUNK_ID int, СHUNK_TEXT (64000). Пример заливки на nzPLSQL где-то валялся, киньте сообщение в почту, постараюсь найти и отослать.

Под анализом что подразумеваете? полнотекстовый поиск? извлечение структурированных данных из текста?
В netezza это можно реализовать разными способами, начиная от регулярных выражений в SQL до использования параллельных программ на питоне или джаве, либо mapreduce заданиями на встроенном hadoop.

Но рекомендую все же показать бизнес пользователям возможности текстового анализа таких инструментов как BigInsights или IBM Content Analytics, они на несколько порядков более продвинутые в плане работы с текстами.
Опять же, если надо проконсультировать, обращайтесь.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37951352
ASCRUSVertica лицензируется
конкретно на чистые исходные данные, из расчета того, сколько бы они весили в формате CSV, даже с учетом разделителей полей. Это факт, потому что я напрямую общаюсь с компанией Vertica и политику лицензирования знаю. Итого если нам нужно хранить в ХД данных, которые весят в CSV 5 тб, нам надо будет купить лицензию на 5 тб. База реально при этом займет где то 2 тб (в среднем 4 раза сжатие + данные проекций). Понятно, что цена получается не самая демократическая, но она значительно ниже Терадаты. А по гибкости значительно выше своих конкурентов. Ибо у Netezza покупается шкаф и если место на нем кончилось, шкаф нужно выбросить и купить более емкий. А у GreenPlum по моему нужно лицензировать все место, что доступно на дисках кластера, а значит если хотим поставить новый сегмент, надо докупить на новый объем лицензий. Здесь Vertica дает нулевую стоимость масштабирования - можно в кластер сколько угодно добавлять новых сегментов, увеличивая производительность за счет прибавления процессорных мощностей, RAM и более размазанного хранения данных по сегментам. К примеру, купив лицензий на 5 тб, мы можем собрать из своих 10 серверов кластер, где на каждый сервер придется по 400 гигабайт сжатых данных, в итоге штука эта будет работать в реалтайм, как на загрузку так и на любые запросы любой сложности. Если на серверах еще поставить по 96 гигов памяти, то оно вообще просто будет всегда работать в миллисекундах, фактически как inmemory, держа все горячие данные в кэше. Итого, что по механизму загрузки WOS/ROS, что по оптимизатору, что по лицензионной политике - Vertica хороша для realtime и стартапов, кто грузит данные раз в сутки или раз в неделю, у кого устоявшиеся объемы ХД, могут спокойно купить Netezza и забыть про любой геммор администрирования, у кого объемы плавающие и нужна гибкая политика хранения и распределения данных, очень хорошо будет смотреться GreenPlum.


вопрос знатокам перечисленных систем:
как будет выглядеть относительная стоимость содержания данных систем в Х.
если стартуем мы с петабайта и 20 пользователей, и каждый год прибавляем по 0.5 петы и 4 пользователя.
может кто расписать расходы на первые 3 года?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37953495
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Денисик_Аналитиквопрос знатокам перечисленных систем:
как будет выглядеть относительная стоимость содержания данных систем в Х.
если стартуем мы с петабайта и 20 пользователей, и каждый год прибавляем по 0.5 петы и 4 пользователя.
может кто расписать расходы на первые 3 года?
Это ты в правильное место с такими вопросами пришел.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37974771
Apex,

подскажи другое
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #37976745
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Денисик_АналитикApex,

подскажи другое
IBM, HP, EMC. Поиск телефонов будет твоим домашним заданием.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38034952
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUS, а Вы на этапе выбора не смотрели на Actian/Vectorwise? Может есть какие-то впечатления либо мнения (vs Syabse IQ or vs Vertica)?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38035407
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_DogASCRUS, а Вы на этапе выбора не смотрели на Actian/Vectorwise? Может есть какие-то впечатления либо мнения (vs Syabse IQ or vs Vertica)?
Не смотрели. Искали изначально MPP сервер, имеющий успешный опыт работы с машино генерируемыми данными, поэтому и отпал тот же Sybase IQ.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38035458
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSИскали изначально MPP сервер...
интересно, почему именно MPP, если даже данные машино генерируемые ?

ASCRUS имеющий успешный опыт работы с машино генерируемыми данными, поэтому и отпал тот же Sybase IQ.

это в основном для оптимального load'a?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38035492
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_DogASCRUSИскали изначально MPP сервер...
интересно, почему именно MPP, если даже данные машино генерируемые ?

Масштабируемость.

_DogASCRUS имеющий успешный опыт работы с машино генерируемыми данными, поэтому и отпал тот же Sybase IQ.

это в основном для оптимального load'a?
Это в основном для масштабируемости.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38037243
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apex_Dogпропущено...

интересно, почему именно MPP, если даже данные машино генерируемые ?

Масштабируемость.

_Dogпропущено...


это в основном для оптимального load'a?
Это в основном для масштабируемости.
Спасибо что ответил :) Мне в принципе и добавить нечего.

Ну разве что, возвращаясь к прошлому вопросу, я еще раз внимательно посмотрел на сайт Actian/Vectorwise и так и не понял, что за "On-chip cache computing", который "100x faster to process data on chip cache than RAM" и как он помогает, когда очень очень много разных данных, которые ну никак даже частями особо и не влазят в тот самый RAM. Плюс "Very fast reporting engine" тоже не очень понятен, про который написано "Connect Vectorwise to any Business System or Enterprise Data Warehouse and load data using bulk or batch loading, and transform either before or after loading". По рисунку архитектуры на сайте производителя смахивает на какую надстройку над Warehouse, в принципе сейчас любой уважающий себя BI имеет аналогично похожий механизм затягивания на себя части данных для организации быстрого анализа, ну разве что без чипа, но с другой стороны значит и без привязки к конкретному оборудованию. В общем мне до конца не понятный продукт, одно понятно было изначально и 100% - нам он не подходит по требованиям.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38047867
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUS,
А что вместо SQL Central используете?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38047896
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_DogASCRUS,
А что вместо SQL Central используете?
Eclipse с плагином DBViewer, еще народ на Белке сидит. В принципе любой JDBC клиент подходит, даже тот же ISQL с комплекта Sybase. Так же накатал под PowerDesigner небольшой плагин на реверс таблиц и представлений, чтобы физ модель видеть наглядно. Сейчас подумываем расширить этот плагин до уровня полноценного с поддержкой всех фич и генерацией скриптов на создание и изменение объектов.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38049094
ASCRUS,

Лёша, привет.

А PD у вас откуда взялся :)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38049567
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Привет Юра. PD триальный, чтобы его купить надо что то показать. Чтобы что то показать, надо сделать реверс. Пока к сожалению показать кроме табличек нечего, Sybase ответил, что поддержка Vertica не планируется, в духе вот купите его, потом попросите и мы поставим в планы. Очень печальная позиция, где надо пояснять руководству, почему купив продукт, мы еще должны будем потратить ресурс на его доработку до уровня работоспособности. В общем не переживай, пиратством не занимаемся ;)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38069991
megaexpert
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZivя к тому, что терабайты-то разные бывают.
У меня например вот 53 миллиарда записей, но терабайт только 4, ибо компрессия.
Если не секрет, в какой компании, или хотя бы в какой отрасли такая база? И что в двух словах в ней хранится?

Меня звали на работу в фирму, где в терадатовском хранилище 2ярда записей. Я подумал, что это много.
Потом узнал, что в eBay например их 17 ТРИЛЛИОНОВ в Greenplum, и 3 триллиона в терадате.
Интересно, сколько в сбере?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38071350
Павел Новокшонов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
megaexpertMasterZivя к тому, что терабайты-то разные бывают.
У меня например вот 53 миллиарда записей, но терабайт только 4, ибо компрессия.
Если не секрет, в какой компании, или хотя бы в какой отрасли такая база? И что в двух словах в ней хранится?

Меня звали на работу в фирму, где в терадатовском хранилище 2ярда записей. Я подумал, что это много.
Потом узнал, что в eBay например их 17 ТРИЛЛИОНОВ в Greenplum, и 3 триллиона в терадате.
Интересно, сколько в сбере?

Пару лет назад Ebay вроде как собирался мигрировать GreenPlum в пользу Терадаты.

http://www.dbms2.com/2010/10/06/ebay-followup-greenplum-out-teradata-10-petabytes-hadoop-has-some-value-and-more/
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38073131
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
megaexpertMasterZivя к тому, что терабайты-то разные бывают.
У меня например вот 53 миллиарда записей, но терабайт только 4, ибо компрессия.
Если не секрет, в какой компании, или хотя бы в какой отрасли такая база? И что в двух словах в ней хранится?

Меня звали на работу в фирму, где в терадатовском хранилище 2ярда записей. Я подумал, что это много.
Потом узнал, что в eBay например их 17 ТРИЛЛИОНОВ в Greenplum, и 3 триллиона в терадате.
Интересно, сколько в сбере?например в северо-западном сбере в день если нет никаких дополнительных операций типа начисления процентов, в день делается примерно полмиллиона проводок, хранится только последний год
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38073264
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Павел НовокшоновПару лет назад Ebay вроде как собирался мигрировать GreenPlum в пользу Терадаты.

Были какие-то траблы у них, но все так и осталось.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38073341
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VovakaПавел НовокшоновПару лет назад Ebay вроде как собирался мигрировать GreenPlum в пользу Терадаты.

Были какие-то траблы у них, но все так и осталось.
Подозреваю, что с уходом Оливера эта тема заглохла.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38192283
AAron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSupermegaexpertпропущено...

Если не секрет, в какой компании, или хотя бы в какой отрасли такая база? И что в двух словах в ней хранится?

Меня звали на работу в фирму, где в терадатовском хранилище 2ярда записей. Я подумал, что это много.
Потом узнал, что в eBay например их 17 ТРИЛЛИОНОВ в Greenplum, и 3 триллиона в терадате.
Интересно, сколько в сбере?например в северо-западном сбере в день если нет никаких дополнительных операций типа начисления процентов, в день делается примерно полмиллиона проводок, хранится только последний год
мы делали проект миграции их ИАСКа - там были не такие уж большие базы. до десятка террабайт. насчет остальных систем - не в курсе.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38207145
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
megaexpertЕсли не секрет, в какой компании, или хотя бы в какой отрасли такая база? И что в двух словах в ней хранится?

например, подневные остатки товаров за 10 лет для ритейла (сотня тысяч номенклатур и несколько тысяч магазинов)
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38207149
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
впрочем, тут не нужно упомянутое ПО,
и MSSQL, и Oracle вполне справляются
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38207625
geereye
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Vovaka100ТБ - это оценочная прикидка года через 3.

Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100 млн записей в сутки, далее будет только расти, сырые данные нужны как минимум месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов держать. Есть еще нетипичные примеры, когда записей в секунду сейчас порядка 200 тысяч . Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего агрегировать, нужен просто быстрый поиск.
вопросы:
- быстрый поиск нужен для одной записи, или для массива записей? если для массива записей, общий признак (по которому агрегатируете) у этого массива записей есть, или это записи из разных групп, ничем логически не связанные?
- как часто нужен этот быстрый поиск? если точно не можете сказать, и приблизительно затрудняетесь, то, хотя бы, как часто по сравнению с частотой вставки записей?
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38207906
geereye
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
потому как уж очень задача смахивает на уже давно решённую.
раздельные структуры:
- для дерева агрегатов, оптимизированная на изменение
- для массива фактов, оптимизированная на вставку
каждая вставка единичного факта приводит к изменению соответствующих агрегатов.
факты можно вставлять единично, группами, батчами.
но из-за специализации структур хранения, факты не адресуемы единично. факты пишутся в хронологическом порядке, с возможностью вынуть пачку фактов от заданного начального до заданного конечного таймстампа, и уже вынуть из пачки нужный "вручную" - программно.
Работает уже давно и прекрасно, скорости вставки машино-генерируемых данных очень высокие.
Состряпать, в принципе, недолго, к тому же есть чудный TPNS (teleprocessing network simulator) который замечательно симулирует кучу сетевых клиентов, которые люто шлют пакеты. Так что сразу можно и посмотреть.
В принципе, по цене будет в пределах связки WAS + DB2, то есть, если я правильно понимаю, и в пределах стоимости неттезы, плюс-минус.
Да, только никто это дело хранилищем не обзывал.
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38508828
bmv_rus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
05.07.2013 - НР Vertica: современная аналитика.

YouTube Video
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38508945
19 Белых Котиков
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovaka,

авторОбъем ХД планируется до сотни ТБ через несколько лет

Дурное дело нехитрое...
...
Рейтинг: 0 / 0
Vertica vs Netezza vs Grennplum
    #38509699
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
bmv_rus05.07.2013 - НР Vertica: современная аналитика.


"Масштабируемо - просто добавьте лезвие!"
Лезвие, это пять!!!!
...
Рейтинг: 0 / 0
93 сообщений из 93, показаны все 4 страниц
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Vertica vs Netezza vs Grennplum
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]