|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Кто что может рассказать про данные системы? Сильные и слабые стороны интересуют. Объем ХД планируется до сотни ТБ через несколько лет, одно из основных требований, обеспечение online доступности данных, т.е. данные должны вставляться практически постоянно "маленькими" порциями и тут же быть доступны для анализа. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 11:18 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
при таком объеме хранилища включите в рассмотрение Sybase IQ, как коммерческую систему. Я бы не рискнул своей пятой точкой взлетать на бесплатных системах с такими хранилищами и дело даже не в технических характеристиках. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 11:28 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Ну во первых они все далеко не бесплатны. IBM Netezza, EMC Greenplum, HP Vertica. Стоимость вполне сопоставима с IQ, хоть и по разному считается. Хотя Sybase IQ скорее всего будет дороже на кластерых решениях, ну и минусы у него есть: один писатель, который не в состоянии обеспечить realtime вставку данных небольшими порциями, ну и отсутствие MPP. Sybase IQ долго гоняли в хвост и в гриву, он не просто не тянет... ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 11:52 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
я с IQ не работал, но в описании нововведений версии IQ15 заявлалась поддержка множественных закгрузчиков данных, возможность конкурентной параллельной загрузки с удаленных клиентов а не только с центрального сервера и еще кучу плюшек. Возможно, что спецы, которые сталкивались с этим сервером на практике прокомментируют. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 13:16 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Последнюю редакцию не щупал, но все равно МРР там нет, есть параллелизация запросов между серверами, а так все равно кто-то один обрабатывает. Ограничение по записи никуда не делось, одна таблица - один писатель. Потом вставки при росте объема таблиц начинают тормозить и видимо никуда не деться, т.к. индексы перестраиваются. Джойны больших таблиц опять же смерти подобно. Ну и конечно стоимость лицензий, 40 тыщ баксов каждое второе ядро + 50 за каждый сервер в мультиплексе, начиная со второго. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 13:35 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
хмм, я тут погуглил, в документе http://www.sybase.cz/uploads/IQ_Benchmark_15x_12x.pdf Performance Comparison of Sybase IQ 15.x and IQ 12.x page 2Enhanced parallelism within queries – previous versions of Sybase IQ had limited ability to utilize many CPUs while running a single query. Sybase IQ 15.x significantly increases the types of operators, that are automatically parallelized by the query engine. By default, this feature is enabled and requires no change in query syntax or tuning. Сейчас они стали раздавать девелопер версию IQ15, будет интерес, погоняете. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 13:42 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
http://www.sybase.ru/system/files/pdf/sybase_iq_scaling_wp_ru_lo.pdf Sybase.ruПреимущества подхода shared-everything для MPP архитектуры В отличие от других MPP-архитектур, реализованная в Sybase IQ технология PlexQ динамически управляет обработкой запросов, распределяя ее между множеством узлов, благодаря чему достигается повышение быстродействия, упрощение внедрения и снижение эксплуатационных расходов Они называют это преимуществом. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 14:11 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
VovakaКто что может рассказать про данные системы? Сильные и слабые стороны интересуют. Объем ХД планируется до сотни ТБ через несколько лет, одно из основных требований, обеспечение online доступности данных, т.е. данные должны вставляться практически постоянно "маленькими" порциями и тут же быть доступны для анализа.Ни одна из этих систем не предназначена для Vovakaвставляться практически постоянно "маленькими" порциямиЭто ведь по сути OLTP, а все эти системы заточены под пакетную загрузку. Я бы рассмотрел Exadata. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 16:09 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Ну и еще расскажите, чем будете данные гнать в хранилище. Это важно. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 16:11 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Exadata дороговата зараза. Льем в основном Талендом, кстати вот Вертике пофиг например совсем, что одиночные инсерты, что батчинсерты, что балклоад. Архитектура с областью WOS в памяти к этому индифферентна, вставки мгновенные. Сейчас тестим Нетиззу, тоже результаты впечатляющие с их nzload, Sybase IQ отдыхает в сторонке. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 16:34 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Vovaka, 1. По PlexQ в IQ 15.4 уже увидели. 2. По поводу загрузки еденичных операций в IQ посмотрите "RTL to IQ" 3. Скорость вставки vs размер таблицы, кол-во индексов, джойн больших таблиц. IQ - это инструмент (как и все остальные), но в данном конкретном случае для аналитики. Он не сможет заменить руки людей, которые проектируют ХД. 4. Подумайте - Sybase IQ используют в 4 раза больше компаний, чем у всех остальных поколоночных СУБД вместе взятых. 5. Цена за 100Тб думаете будет маленькой у кого-то более-менее промышленного? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 16:47 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Vovaka, Давайте сначала. Что вы льете? Ведь должен быть механизм захвата изменений? Сам Talend, насколько я знаю, захватывать изменения не умеет. А объемы у вас некислые. А вообще: http://www.folkstalk.com/2009/12/netezza-nzload-utility.html Nzload command is used to load bulk data Все эти системы ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 16:56 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Alexander RyndinVovaka, Давайте сначала. Что вы льете? Ведь должен быть механизм захвата изменений? Сам Talend, насколько я знаю, захватывать изменения не умеет. А объемы у вас некислые. А вообще: http://www.folkstalk.com/2009/12/netezza-nzload-utility.html Nzload command is used to load bulk data Все эти системы 95% данных - machine generated, тут нет захвата изменений, это различные события, идущие из сотен источников в онлайне. Про Нетиззу имелл ввиду, что если например грузить в Sybase IQ 1 ГБ одним куском, а потом зазбить на 100 частей и прогрузить 100 раз, то получим увеличение суммарного времени загрузки раз в 50, а в Нетиззе практически одинаково + во всех перечисленных системах можно грузить в одну таблицу несколькими потоками, в IQ нельзя. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 17:33 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
по теме прямого сравнения кстати материала маловато. вот удалось нарыть хоть что-то: http://www.think88.com/Examples/Think88_SybaseIQ_wp.pdf хоть и не шибко жирно ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 17:37 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Забыл парольVovaka, 1. По PlexQ в IQ 15.4 уже увидели. 2. По поводу загрузки еденичных операций в IQ посмотрите "RTL to IQ" 3. Скорость вставки vs размер таблицы, кол-во индексов, джойн больших таблиц. IQ - это инструмент (как и все остальные), но в данном конкретном случае для аналитики. Он не сможет заменить руки людей, которые проектируют ХД. 4. Подумайте - Sybase IQ используют в 4 раза больше компаний, чем у всех остальных поколоночных СУБД вместе взятых. 5. Цена за 100Тб думаете будет маленькой у кого-то более-менее промышленного? Ну Sybase IQ первый и когда то был фактически один такой, поэтому и клиентов много. Я ж не говорю, что он плохой, просто из-за своей архитектуры он наши потребности не сможет обеспечить по созданию операционного ХД, да и накладно получится. Вот для BI, как витрина над сырыми данными самое оно было бы. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 17:41 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Ggg_oldпо теме прямого сравнения кстати материала маловато. вот удалось нарыть хоть что-то: http://www.think88.com/Examples/Think88_SybaseIQ_wp.pdf хоть и не шибко жирно Спасибо! Этого материала не встречал. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 17:44 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Vovaka95% данных - machine generated, тут нет захвата изменений, это различные события, идущие из сотен источников в онлайне. О. Вот это интересно. А вам их тупо складировать надо или как-то агрегировать? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 17:48 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
По разному, и так и так. И еще желательно бы иметь возможность по разной стоимости хранить холодные и теплые данные. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 18:04 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Vertica сейчас использую, Netezza видел со стороны. У каждой есть свои интересные особенности. Imho Vertica удачнее смотрится на проектах, где невозможно спрогнозировать рост данных в будущем, это например стартап онлайн игры или аналитического ресурса, где на момент запуска 3 сервера в кластере будет хватать выше крыши, а через год уже может понадобиться значительно нарастить мощность и объем ХД. Здесь круто, что можно не останавливая сервер подключать в кластер новые ноды. Но ценой является дорогая стоимость тб. Netezza же наоборот хороша там, где уже состоялись объемы данных и требуется создание промышленного хранилища, заточенного под эффективное хранение и доступ к данным без затрат на сопровождение. Фактически это уже готовый настроенный программно аппаратный ящик, не требующий глубоких знаний по тюнингу и администрированию. Но здесь платой является то, что апгрейт системы выливается в замену всего ящика и острову ХД на момент замены. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 22:04 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Vovaka, а что за проект? какие данные? и 100 терабайт — это сколько в записях? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 22:16 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
я к тому, что терабайты-то разные бывают. У меня например вот 53 миллиарда записей, но терабайт только 4, ибо компрессия. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2012, 22:21 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Alexander RyndinVovaka, Давайте сначала. Что вы льете? Ведь должен быть механизм захвата изменений? Сам Talend, насколько я знаю, захватывать изменения не умеет. А объемы у вас некислые. А вообще: кстати коммерческий Talend замечательно CDC поддерживает для всех основных вендоров. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 00:15 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ASCRUSAlexander RyndinVovaka, Давайте сначала. Что вы льете? Ведь должен быть механизм захвата изменений? Сам Talend, насколько я знаю, захватывать изменения не умеет. А объемы у вас некислые. А вообще: кстати коммерческий Talend замечательно CDC поддерживает для всех основных вендоров.Ну для СУБД Oracle Talend использует LogMiner, либо триггеры, что, как бы, не очень хорошо - тормоза еще те. MSSQL 2005 я не понимаю, как они могут поддерживать, кроме как с помощью триггеров. Ну и давайте ссылку про "замечательно", а то как-то оно голословно ;) ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 00:37 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ASCRUSAlexander RyndinVovaka, Давайте сначала. Что вы льете? Ведь должен быть механизм захвата изменений? Сам Talend, насколько я знаю, захватывать изменения не умеет. А объемы у вас некислые. А вообще: кстати коммерческий Talend замечательно CDC поддерживает для всех основных вендоров. Не мешай людям продавать Golden Gate! ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 00:54 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ApexНе мешай людям продавать Golden Gate!Заметь, первым это слова сказал ты. Не я. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 00:59 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Alexander RyndinASCRUSпропущено... кстати коммерческий Talend замечательно CDC поддерживает для всех основных вендоров.Ну для СУБД Oracle Talend использует LogMiner, либо триггеры, что, как бы, не очень хорошо - тормоза еще те. MSSQL 2005 я не понимаю, как они могут поддерживать, кроме как с помощью триггеров. Ну и давайте ссылку про "замечательно", а то как-то оно голословно ;) Не дам. Тема не про это. Что умеет субд по cdc, то и поддерживается. Если ничего не умеет, разруливается дедовским timestamp и триггерами. А в mssql штатно cdc через триггера сделано. Я плотно работаю с Talend, будет время, потом как нибудь расскажу. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 07:01 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
MasterZivVovaka, а что за проект? какие данные? и 100 терабайт — это сколько в записях? 100ТБ - это оценочная прикидка года через 3. Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100 млн записей в сутки, далее будет только расти, сырые данные нужны как минимум месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов держать. Есть еще нетипичные примеры, когда записей в секунду сейчас порядка 200 тысяч . Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего агрегировать, нужен просто быстрый поиск. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 10:21 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Интересная задача и OLTP и DWH в одном. В случае GreenPlum и Netezza будут проблемы с загрузкой одиночных записей. ETL процесс на этих системах отдельная задача(про Sybase ничего сказать не могу). Для этого больше подходит Oracle или MS SQL SERVER. Если рассматривать ExaData - то хранить 100 Тб на ней действительно дороговато(кстати, учтен ли рост притока данных с течением времени?). Тут надо думать над 2 уровнем хранилища. Если по историческим данным надо проводить аналитику - можно задуматься над hadoop. Если нужны select only операции (применимо к историческим данным), то это какая-нибудь NoSQL база. В ExaData,кстати, есть гибридная компрессия, которая на некотором пофиле данных весьма не плохо жмет (во что превратятся 100 Тб - это еще вопрос). Тут надо говорить к контектсте того сколько стоит хранить 1 Тб "сырых" данных Вот пакетик, которым можно оценить сжатие, попробуйте: http://uhesse.com/2011/09/12/dbms_compression-example http://www.morganslibrary.com/reference/pkgs/dbms_compression.html ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 11:36 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
On 03/21/2012 11:21 AM, Vovaka wrote: > Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100 > млн записей в сутки, далее будет только расти, сырые данные нужны как минимум > месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов 3 миллиарда в месяц. > держать. Есть еще нетипичные примеры, когда записей *в секунду *сейчас порядка > *200 тысяч*. Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего > агрегировать, нужен просто быстрый поиск. 17 млрд записей в сутки -- это интересно. Это сколько же в месяц ? 510 миллиардов. Солидно. Надо оборудование хорошее для этого, кластерок этак машин на ... -- блин, 80 получается. Это уже не шутки, это много. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 11:43 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
mijatovicИнтересная задача и OLTP и DWH в одном. В случае GreenPlum и Netezza будут проблемы с загрузкой одиночных записей. ETL процесс на этих системах отдельная задача(про Sybase ничего сказать не могу). Для этого больше подходит Oracle или MS SQL SERVER. Если рассматривать ExaData - то хранить 100 Тб на ней действительно дороговато(кстати, учтен ли рост притока данных с течением времени?). Тут надо думать над 2 уровнем хранилища. Если по историческим данным надо проводить аналитику - можно задуматься над hadoop. Если нужны select only операции (применимо к историческим данным), то это какая-нибудь NoSQL база. В ExaData,кстати, есть гибридная компрессия, которая на некотором пофиле данных весьма не плохо жмет (во что превратятся 100 Тб - это еще вопрос). Тут надо говорить к контектсте того сколько стоит хранить 1 Тб "сырых" данных Вот пакетик, которым можно оценить сжатие, попробуйте: http://uhesse.com/2011/09/12/dbms_compression-example http://www.morganslibrary.com/reference/pkgs/dbms_compression.html Ну в общем 2 уровня скорее всего и будет, а то еще и третий, под холодные данные Одиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком, и тут если их так и грузить, то IQ сильно просаживается, ему их клеить нужно и чем больше тем лучше, что не всегда уже реализуемо малой кровью ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 11:51 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
MasterZivOn 03/21/2012 11:21 AM, Vovaka wrote: > Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100 > млн записей в сутки, далее будет только расти, сырые данные нужны как минимум > месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов 3 миллиарда в месяц. > держать. Есть еще нетипичные примеры, когда записей *в секунду *сейчас порядка > *200 тысяч*. Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего > агрегировать, нужен просто быстрый поиск. 17 млрд записей в сутки -- это интересно. Это сколько же в месяц ? 510 миллиардов. Солидно. Надо оборудование хорошее для этого, кластерок этак машин на ... -- блин, 80 получается. Это уже не шутки, это много. Ну это исключение конечно, там несколько колонок всего, да и жмется отлично ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 11:57 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
авторОдиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком Вот с этим Oracle замечательно справляется. Кстати, а данные приходят чистые? Не думали над тем, что бы создать Stage area перед загрузкой данных, которая будет чистить, конкатенировать данные, и только потом грузить оптимальным для базы способом? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 12:07 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
mijatovicавторОдиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком Вот с этим Oracle замечательно справляется. Кстати, а данные приходят чистые? Не думали над тем, что бы создать Stage area перед загрузкой данных, которая будет чистить, конкатенировать данные, и только потом грузить оптимальным для базы способом? С этим проблем как раз совсем нет в подавляющем большинстве случаев, machine generated - все чисто. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 12:09 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
> Для этого больше подходит Oracle или MS SQL SERVER. Вот уж что меньше всего подходит, так эти два. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 12:18 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
авторВот уж что меньше всего подходит, так эти два. Я имел ввиду загрузку множества одиночных записей, возможно был не правильно понят. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 12:25 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Vovaka Ну в общем 2 уровня скорее всего и будет, а то еще и третий, под холодные данные Одиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком, и тут если их так и грузить, то IQ сильно просаживается, ему их клеить нужно и чем больше тем лучше, что не всегда уже реализуемо малой кровью 1. Смотрели IQ 12.7? 15-ка быстрее грузит. 2. Грузили из файлов LOADом? Файлы "fully delimited" (в параллели всё вгружалось)? 200k записей /сек для IQ на нормальной машине - это совсем не много. 3. Если файлов много, то скорость снижается тогда, когда на таблице много индексов HG, Unique HG, PK. Но тогда одни LOADом можно сразу несколько файлов грузить за раз. Или уменьшить кол-во индексов с типом HG - скорость вырастёт прилично. Можно использовать промежуточный Staging, например, в котором минимум индексов с типом HG, а потом всё сбрасывать в нормальные таблички. 4. Файлы формата binary вгружаются намного быстрее чем ASCII. Откуда файлы приходят - можно форматом управлять? 5. Можно побить на партиции (отдельная опция), а можно "бесплатно" сделать отдельные таблички и потом "create view ... select union all". Такая вьюха отрабатывается IQ как "partitioned table" и работает ещё быстрее, чем штатные партиции. 6. Minimize_Storage или IQ UNIQUE стоял везде или выборочно? Тоже влияет на скорость загрузки - сколько колонок в процессе загрузки дополнительно оптимизируется + к компрессии. 7. Полючить представительство Sybase - для такой интересной задачки они не откажут в помощи :) Короче - поля для деятельности достаточно ... ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 13:34 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Забыл парольVovakaНу в общем 2 уровня скорее всего и будет, а то еще и третий, под холодные данные Одиночных инсертов конечно же не будет все таки, все равно порциями, другой вопрос, что их может быть много маленьких и постоянным потоком, и тут если их так и грузить, то IQ сильно просаживается, ему их клеить нужно и чем больше тем лучше, что не всегда уже реализуемо малой кровью 1. Смотрели IQ 12.7? 15-ка быстрее грузит. 2. Грузили из файлов LOADом? Файлы "fully delimited" (в параллели всё вгружалось)? 200k записей /сек для IQ на нормальной машине - это совсем не много. 3. Если файлов много, то скорость снижается тогда, когда на таблице много индексов HG, Unique HG, PK. Но тогда одни LOADом можно сразу несколько файлов грузить за раз. Или уменьшить кол-во индексов с типом HG - скорость вырастёт прилично. Можно использовать промежуточный Staging, например, в котором минимум индексов с типом HG, а потом всё сбрасывать в нормальные таблички. 4. Файлы формата binary вгружаются намного быстрее чем ASCII. Откуда файлы приходят - можно форматом управлять? 5. Можно побить на партиции (отдельная опция), а можно "бесплатно" сделать отдельные таблички и потом "create view ... select union all". Такая вьюха отрабатывается IQ как "partitioned table" и работает ещё быстрее, чем штатные партиции. 6. Minimize_Storage или IQ UNIQUE стоял везде или выборочно? Тоже влияет на скорость загрузки - сколько колонок в процессе загрузки дополнительно оптимизируется + к компрессии. 7. Полючить представительство Sybase - для такой интересной задачки они не откажут в помощи :) Короче - поля для деятельности достаточно ... да, 12.7 На все не буду отвечать, понятно, что можно оптимизировать еще, но лицензии ... мультиплекс из трех серверов, каждый 2 проца х 6 ядер, считаем 36 ядер, из них каждое второе стоит 40 тыщ + 50 тыщ х 2 для мультиплекса итого 820 тыщ + 20% ТП, итого лям. Для сравнения Netezza примерно в той же конфигурации почти в 3 раза дешевле, причем уже с железом. Ну и Sybase CIS всех своих спецов давно профукал и продолжает это с завидным постоянством делать. Майкл в своем репертуаре. В общем ну их в сад :) ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 14:47 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Все таки хочется узнать побольше именно про 3 озвученные платформы. Остальное уже за рамками топика. Завтра кстати все выступают на Big Data, послушаем, может чего интересного расскажут :) ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 15:06 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Данные точно необходимо загружать именно в реальном времени или небольшой временной lag допустим? Я очень сомневаюсь, что данные и правда нужны пользователям в ту же секунду, в которую они поступили для загрузки. Если lag допустим, то писать можно куда угодно, хоть в плоский файл, который после достижения оптимального размера (объем\кол-во строк) скармливается загрузчику и тогда никаких проблем не будет, никакой Оракл, Экзадат тут не нужны. На счет IQ соглашусь, не стоит оно тех денег, которые за нее просят. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 19:48 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Спрошу чисто для "проформу": Teradata уже рассматривли? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 19:57 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ApexДанные точно необходимо загружать именно в реальном времени или небольшой временной lag допустим? Я очень сомневаюсь, что данные и правда нужны пользователям в ту же секунду, в которую они поступили для загрузки. Если lag допустим, то писать можно куда угодно, хоть в плоский файл, который после достижения оптимального размера (объем\кол-во строк) скармливается загрузчику и тогда никаких проблем не будет, никакой Оракл, Экзадат тут не нужны. согласен. При использовании etl этот вопрос решается без проблем. на самом деле данные с аппаратуры идут пакетами в разных форматах. В пакете может быть и 1 тысяча и 100 тысяч записей. пакет с помощью etl преобразовывается в плоский файл и загружается с использованием пакетной загрузки субд. Netezza и Vertica позволяют грузить эти пакеты параллельно с множества устройств, в IQ придется результат парсинга склеивать перед загрузкой, что означает узкое место и дополнительные телодвижения на etl, чтобы оптимизировать это. Проблема здесь в том, что например если одно устройство генерирует данных в разы больше других, то равномерность поступления данных в ХД от устройств может нарушаться, где по одному устройству данные за последние 5 мин уже доступны, а по другому нет. Но естественно все решаемо ;) ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 20:13 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ApexСпрошу чисто для "проформу": Teradata уже рассматривли? Для задач хранения и анализа machine generate данных imho терадата жирно выходит. Тем более по условиям задачи топика данные будут хранится за определенный период и потом выносится с ХД. Так что думаю аналог терадаты должен справится за более разумную стоимость. P.M. А все таки кроме меня кто нибудь на форуме работал с субд такого класса? очень бы хотелось провести обмен опытом. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2012, 20:21 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ASCRUSApexСпрошу чисто для "проформу": Teradata уже рассматривли? Для задач хранения и анализа machine generate данных imho терадата жирно выходит. Ну, Терадата тоже разная бывает, хотя в целом соглашусь. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2012, 18:52 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ApexДанные точно необходимо загружать именно в реальном времени или небольшой временной lag допустим? Я очень сомневаюсь, что данные и правда нужны пользователям в ту же секунду, в которую они поступили для загрузки. Если lag допустим, то писать можно куда угодно, хоть в плоский файл, который после достижения оптимального размера (объем\кол-во строк) скармливается загрузчику и тогда никаких проблем не будет, никакой Оракл, Экзадат тут не нужны. На счет IQ соглашусь, не стоит оно тех денег, которые за нее просят. Лаг допустим конечно, в разных типах данных разный, но допустим ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2012, 22:45 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ApexСпрошу чисто для "проформу": Teradata уже рассматривли? Рассматривали, в короткий список не вошла. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2012, 22:46 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Сегодня состоялся форум Bg Data, было довольно интересно. Удалось даже пообщаться с CTO и сооснователем Greenplum, Люком Лонерганом. Молодцы EMC, что пригласили такого человека. Сильный ход. У них несколько коммерческих инсталляций в России, у IBM и HP пока нет ни одной, но с ними тоже интересно было познакомиться. В голове каша, ну в общем примерно паритет. Вертика правда со своей лицензионной политикой конечно шокирует, но в итоге обещают быть не дороже конкурентов. Терадаты кстати почему-то не было, остальные были все. Sybase порадовал особенно, в конце был розыгрыш призов, так вот от Сайбейза была клава беспроводная с мышкой от Логитека, так хотелось выиграть такой подарок, на всю жизнь память бы осталась, это вот Приз настоящий, не то что другие, всякая фигня, электронные книги и Айпад :) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2012, 22:57 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
VovakaНу и конечно стоимость лицензий, 40 тыщ баксов каждое второе ядро + 50 за каждый сервер в мультиплексе, начиная со второго. Это где такие цены ? Мне показывали офиц. саповский прайс, там за CPU раза в 4 дороже, причем в евро. И за мультиплексы, за партицирование, за шифрование данных и т.п. дополнительно. Хотя думаю Vertica vs Netezza vs Grennplum это решения тоже крайне недешевые. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.03.2012, 13:27 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
VovakaExadata дороговата зараза. а можно поподробнее ? От 2х MUSD или более? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.03.2012, 13:30 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
bmv_rusVovakaНу и конечно стоимость лицензий, 40 тыщ баксов каждое второе ядро + 50 за каждый сервер в мультиплексе, начиная со второго. Это где такие цены ? Мне показывали офиц. саповский прайс, там за CPU раза в 4 дороже, причем в евро. И за мультиплексы, за партицирование, за шифрование данных и т.п. дополнительно. Хотя думаю Vertica vs Netezza vs Grennplum это решения тоже крайне недешевые. А может и в Евро. Они считют по ядрам, а не по процам, причем по дефолту 50% скидка на интеловских процах., так что за CPU видимо и выходило дороже. Но в любом случае ценних там негуманный. Greenplum и Netezza в лоб значительно дешевле, вот Vertica учудила конечно, если первые 2 лицензируют ТБ в сжатом виде, то Vertica сырой, да к тому же в виде текста. Это жесть. Вот выдержка из их доки: VerticaThe data sampled for the estimate is treated as if it had been exported from the database in text format (such as printed from vsql). This means that Vertica evaluates the data type footprint sizes as follows: vsql is a character-based, interactive, front-end utility that lets you type SQL statements and see the results. It also provides a number of meta-commands and various shell-like features that facilitate writing scripts and automating a variety of tasks. •Strings and binary types (CHAR, VARCHAR, BINARY, VARBINARY) are counted as their actual size in bytes using UTF-8 encoding. •Numeric data types are counted as if they had been printed. Each digit counts as a byte, as does any decimal point, sign, or scientific notation. For example, -123.456 counts as eight bytes (six digits plus the decimal point and minus sign). •Date/time data types are counted as if they had been converted to text, including any hyphens or other separators. For example, a timestamp column containing the value for noon on July 4th, 2011 would be 19 bytes. As text, vsql would print the value as 2011-07-04 12:00:00, which is 19 characters, including the space between the date and the time. NOTE: Each column has an additional byte for the column delimiter. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.03.2012, 10:32 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
bmv_rusVovakaExadata дороговата зараза. а можно поподробнее ? От 2х MUSD или более? Ну подробно я знаю, но если рассматривать 16ТБ хранилище, то примерно так и будет ... |
|||
:
Нравится:
Не нравится:
|
|||
26.03.2012, 10:33 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Vovakabmv_rusпропущено... а можно поподробнее ? От 2х MUSD или более? Ну подробно я НЕ знаю, но если рассматривать 16ТБ хранилище, то примерно так и будет ... |
|||
:
Нравится:
Не нравится:
|
|||
26.03.2012, 11:19 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Для будующих посетителей треда - технические вопросы по Netezza можно слать мне ... |
|||
:
Нравится:
Не нравится:
|
|||
26.03.2012, 21:55 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Я думаю, что все все три девайса справятся с поставленной задачей. На счет невозможности загрузки малых порций данных - это звучит странно, т.к. не вижу предпосылок для этого. Из объективных преимуществ могу выделить возможность для Netezzа поставить High Capacity Appliance для неактуальных данных, которые необходимо держать в доступности. Там суть в том, что больше дисков-меньше блейдом, соответственно стоимость терабайта значительно ниже, но при этом данные остаются доступные, хотя и более медленны в обработке. Иначе 100 Тб хранить весьма дорого. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.03.2012, 18:47 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Нетиззу отлично можно кормить малыми и частыми порциями данных. Это можно делать как используя частую загрузку файлов или через кормежку из юниксовых пайпов. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2012, 01:20 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Вертика лицензирует не исходные данные, а размер базы, где данные уже хранятся в сжатом виде. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.04.2012, 20:56 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Виталий Гонтовой, Vertica лицензируется конкретно на чистые исходные данные, из расчета того, сколько бы они весили в формате CSV, даже с учетом разделителей полей. Это факт, потому что я напрямую общаюсь с компанией Vertica и политику лицензирования знаю. Итого если нам нужно хранить в ХД данных, которые весят в CSV 5 тб, нам надо будет купить лицензию на 5 тб. База реально при этом займет где то 2 тб (в среднем 4 раза сжатие + данные проекций). Понятно, что цена получается не самая демократическая, но она значительно ниже Терадаты. А по гибкости значительно выше своих конкурентов. Ибо у Netezza покупается шкаф и если место на нем кончилось, шкаф нужно выбросить и купить более емкий. А у GreenPlum по моему нужно лицензировать все место, что доступно на дисках кластера, а значит если хотим поставить новый сегмент, надо докупить на новый объем лицензий. Здесь Vertica дает нулевую стоимость масштабирования - можно в кластер сколько угодно добавлять новых сегментов, увеличивая производительность за счет прибавления процессорных мощностей, RAM и более размазанного хранения данных по сегментам. К примеру, купив лицензий на 5 тб, мы можем собрать из своих 10 серверов кластер, где на каждый сервер придется по 400 гигабайт сжатых данных, в итоге штука эта будет работать в реалтайм, как на загрузку так и на любые запросы любой сложности. Если на серверах еще поставить по 96 гигов памяти, то оно вообще просто будет всегда работать в миллисекундах, фактически как inmemory, держа все горячие данные в кэше. Итого, что по механизму загрузки WOS/ROS, что по оптимизатору, что по лицензионной политике - Vertica хороша для realtime и стартапов, кто грузит данные раз в сутки или раз в неделю, у кого устоявшиеся объемы ХД, могут спокойно купить Netezza и забыть про любой геммор администрирования, у кого объемы плавающие и нужна гибкая политика хранения и распределения данных, очень хорошо будет смотреться GreenPlum. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.04.2012, 21:37 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ASCRUS Итого если нам нужно хранить в ХД данных, которые весят в CSV 5 тб, нам надо будет купить лицензию на 5 тб. База реально при этом займет где то 2 тб (в среднем 4 раза сжатие + данные проекций). Понятно, что цена получается не самая демократическая, но она значительно ниже Терадаты. Значительно - это на сколько? Если инфа не для форума, контакты в профиле. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.04.2012, 22:39 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
авторИбо у Netezza покупается шкаф и если место на нем кончилось, шкаф нужно выбросить и купить более емкий Не совсем так. Исторически шкаф выкупали по фиксированной для заказчика цене. Получалось выгодно и более быстро/безболезненно чем реконфигурация (чисто теоретически, давайте допустим, что при реконфигурациях бывают проблемы, хотя в предпродажах такое предположение это конечно же полный нонсенс). При замене серверов старый продолжает работать до полной синхронизации нового, а подмена одного на другой проходит незаметно. Сейчас эта модель проходит переработку в связи с юридическими особенностями IBM, и она поменяется - я верю и надеюсь что в лучшую сторону. Пока же каждому заказчику предлагаются индивидуальные (насколько я знаю, не худшие чем ранее) условия. Насчет возможности добавлять и убавлять железо, докупать лицензии по терабайтам - это тоже модель. Хотя хотел бы в этом месте предположить, что возможно люди проводят кучу времени в бенчмарк центрах за балансировкой железа не зря, а иначе как добиться оптимальной цены за перформанс. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.04.2012, 02:00 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Простите за саморекламу, но если кому-то хочется побольше узнать о Netezza, собираюсь выкладывать побольше информации вот сюда. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.04.2012, 02:09 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Андрей ВыходцевПростите за саморекламу, но если кому-то хочется побольше узнать о Netezza, собираюсь выкладывать побольше информации вот сюда. Сразу вопрос на миллион. Как в нетиззу залить varchar(max) из сиквела? ... |
|||
:
Нравится:
Не нравится:
|
|||
18.04.2012, 18:23 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Ivan DurakСразу вопрос на миллион. Как в нетиззу залить varchar(max) из сиквела? Из SQL'a = из MS SQL Server'a? или вопрос как в SQL сделать инсерт в табличку с полем varchar(64000) ? если первое, то через а) выгрузку в файл, который потом загрузить через nzload или external table или b) через стороннюю прожку, например IBM datamovement tool http://www.ibm.com/developerworks/data/library/techarticle/dm-0906datamovement/ или же самому на чем угодно - могу сваять пример на python + odbc если надо. Если второе то create table t(x varchar(64000)); insert into t values ('..64000 символов..); Можете написать мне на емейл, помогу, или давайте тут откроем новый топик. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.04.2012, 23:42 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
http://msdn.microsoft.com/ru-ru/library/ms176089.aspx varchar [ ( n | max ) ] Строковые данные переменной длины не в Юникоде. Аргумент n определяет длину строки и должен иметь значение от 1 до 8000. Значение max указывает, что максимальный размер при хранении составляет 2^31-1 байт (2 ГБ) . Размер хранения — это фактическая длина введенных данных плюс 2 байта. Синонимами по стандарту ISO для типа varchar являются типы charvarying или charactervarying. Если я правильно понимаю, то это CLOB с точки зрения Oracle. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.04.2012, 23:54 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Alexander Ryndin http://msdn.microsoft.com/ru-ru/library/ms176089.aspx varchar [ ( n | max ) ] Строковые данные переменной длины не в Юникоде. Аргумент n определяет длину строки и должен иметь значение от 1 до 8000. Значение max указывает, что максимальный размер при хранении составляет 2^31-1 байт (2 ГБ) . Размер хранения — это фактическая длина введенных данных плюс 2 байта. Синонимами по стандарту ISO для типа varchar являются типы charvarying или charactervarying. Если я правильно понимаю, то это CLOB с точки зрения Oracle. Понял то ты правильно, вот только причем тут Оракл?:) ... |
|||
:
Нравится:
Не нравится:
|
|||
19.04.2012, 01:31 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Тогда здесь конфуз. Netezza для анализа реляционных данных. Строки там до 64к. Для массивно-параллельного анализа, хранения и обработки больших текстов - IBM InfoSphere BigInsights. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.04.2012, 02:25 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ApexAlexander Ryndinпропущено... Если я правильно понимаю, то это CLOB с точки зрения Oracle. Понял то ты правильно, вот только причем тут Оракл?:)Потому что у того, кто задал вопрос есть Oracle background, поэтому на примере Oracle. Ты хочешь об этом поговорить? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.04.2012, 03:33 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Андрей ВыходцевТогда здесь конфуз. Netezza для анализа реляционных данных. Строки там до 64к. Для массивно-параллельного анализа, хранения и обработки больших текстов - IBM InfoSphere BigInsights. Вот именно что конфуз. У нас есть нетизза. Есть данные в хранилище которые мы в нетиззу грузим. В данных есть поля varchar(max) в которых есть данные длиннее чем 64к. Бизнес юзеры с упорством достойным лучшего применения твердят: "Мы хотим анализировать эти данных, мы понимаем что они длинные, но хотим и баста!". Я думал, может есть какой кэйс обходной позволяющий как-то это обходить?? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.04.2012, 11:46 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
авторВот именно что конфуз. У нас есть нетизза. Есть данные в хранилище которые мы в нетиззу грузим. В данных есть поля varchar(max) в которых есть данные длиннее чем 64к. Бизнес юзеры с упорством достойным лучшего применения твердят: "Мы хотим анализировать эти данных, мы понимаем что они длинные, но хотим и баста!". Я думал, может есть какой кэйс обходной позволяющий как-то это обходить?? Да, есть. Но использовать инструмент не по назначению всегда неудобно, как, например, ковыряться микроскопом в носу. Идея такова - при заливке данных под каждый клоб делать табличку, на которую ссылаться по суррогатному ключу. В табличке данные будут иметь вид: CLOB_ID int, CHUNK_ID int, СHUNK_TEXT (64000). Пример заливки на nzPLSQL где-то валялся, киньте сообщение в почту, постараюсь найти и отослать. Под анализом что подразумеваете? полнотекстовый поиск? извлечение структурированных данных из текста? В netezza это можно реализовать разными способами, начиная от регулярных выражений в SQL до использования параллельных программ на питоне или джаве, либо mapreduce заданиями на встроенном hadoop. Но рекомендую все же показать бизнес пользователям возможности текстового анализа таких инструментов как BigInsights или IBM Content Analytics, они на несколько порядков более продвинутые в плане работы с текстами. Опять же, если надо проконсультировать, обращайтесь. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.04.2012, 12:15 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ASCRUSVertica лицензируется конкретно на чистые исходные данные, из расчета того, сколько бы они весили в формате CSV, даже с учетом разделителей полей. Это факт, потому что я напрямую общаюсь с компанией Vertica и политику лицензирования знаю. Итого если нам нужно хранить в ХД данных, которые весят в CSV 5 тб, нам надо будет купить лицензию на 5 тб. База реально при этом займет где то 2 тб (в среднем 4 раза сжатие + данные проекций). Понятно, что цена получается не самая демократическая, но она значительно ниже Терадаты. А по гибкости значительно выше своих конкурентов. Ибо у Netezza покупается шкаф и если место на нем кончилось, шкаф нужно выбросить и купить более емкий. А у GreenPlum по моему нужно лицензировать все место, что доступно на дисках кластера, а значит если хотим поставить новый сегмент, надо докупить на новый объем лицензий. Здесь Vertica дает нулевую стоимость масштабирования - можно в кластер сколько угодно добавлять новых сегментов, увеличивая производительность за счет прибавления процессорных мощностей, RAM и более размазанного хранения данных по сегментам. К примеру, купив лицензий на 5 тб, мы можем собрать из своих 10 серверов кластер, где на каждый сервер придется по 400 гигабайт сжатых данных, в итоге штука эта будет работать в реалтайм, как на загрузку так и на любые запросы любой сложности. Если на серверах еще поставить по 96 гигов памяти, то оно вообще просто будет всегда работать в миллисекундах, фактически как inmemory, держа все горячие данные в кэше. Итого, что по механизму загрузки WOS/ROS, что по оптимизатору, что по лицензионной политике - Vertica хороша для realtime и стартапов, кто грузит данные раз в сутки или раз в неделю, у кого устоявшиеся объемы ХД, могут спокойно купить Netezza и забыть про любой геммор администрирования, у кого объемы плавающие и нужна гибкая политика хранения и распределения данных, очень хорошо будет смотреться GreenPlum. вопрос знатокам перечисленных систем: как будет выглядеть относительная стоимость содержания данных систем в Х. если стартуем мы с петабайта и 20 пользователей, и каждый год прибавляем по 0.5 петы и 4 пользователя. может кто расписать расходы на первые 3 года? ... |
|||
:
Нравится:
Не нравится:
|
|||
10.09.2012, 16:49 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Денисик_Аналитиквопрос знатокам перечисленных систем: как будет выглядеть относительная стоимость содержания данных систем в Х. если стартуем мы с петабайта и 20 пользователей, и каждый год прибавляем по 0.5 петы и 4 пользователя. может кто расписать расходы на первые 3 года? Это ты в правильное место с такими вопросами пришел. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.09.2012, 22:34 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Apex, подскажи другое ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2012, 15:55 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Денисик_АналитикApex, подскажи другое IBM, HP, EMC. Поиск телефонов будет твоим домашним заданием. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.09.2012, 00:38 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ASCRUS, а Вы на этапе выбора не смотрели на Actian/Vectorwise? Может есть какие-то впечатления либо мнения (vs Syabse IQ or vs Vertica)? ... |
|||
:
Нравится:
Не нравится:
|
|||
12.11.2012, 16:32 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
_DogASCRUS, а Вы на этапе выбора не смотрели на Actian/Vectorwise? Может есть какие-то впечатления либо мнения (vs Syabse IQ or vs Vertica)? Не смотрели. Искали изначально MPP сервер, имеющий успешный опыт работы с машино генерируемыми данными, поэтому и отпал тот же Sybase IQ. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.11.2012, 22:08 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ASCRUSИскали изначально MPP сервер... интересно, почему именно MPP, если даже данные машино генерируемые ? ASCRUS имеющий успешный опыт работы с машино генерируемыми данными, поэтому и отпал тот же Sybase IQ. это в основном для оптимального load'a? ... |
|||
:
Нравится:
Не нравится:
|
|||
12.11.2012, 23:24 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
_DogASCRUSИскали изначально MPP сервер... интересно, почему именно MPP, если даже данные машино генерируемые ? Масштабируемость. _DogASCRUS имеющий успешный опыт работы с машино генерируемыми данными, поэтому и отпал тот же Sybase IQ. это в основном для оптимального load'a? Это в основном для масштабируемости. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.11.2012, 00:08 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Apex_Dogпропущено... интересно, почему именно MPP, если даже данные машино генерируемые ? Масштабируемость. _Dogпропущено... это в основном для оптимального load'a? Это в основном для масштабируемости. Спасибо что ответил :) Мне в принципе и добавить нечего. Ну разве что, возвращаясь к прошлому вопросу, я еще раз внимательно посмотрел на сайт Actian/Vectorwise и так и не понял, что за "On-chip cache computing", который "100x faster to process data on chip cache than RAM" и как он помогает, когда очень очень много разных данных, которые ну никак даже частями особо и не влазят в тот самый RAM. Плюс "Very fast reporting engine" тоже не очень понятен, про который написано "Connect Vectorwise to any Business System or Enterprise Data Warehouse and load data using bulk or batch loading, and transform either before or after loading". По рисунку архитектуры на сайте производителя смахивает на какую надстройку над Warehouse, в принципе сейчас любой уважающий себя BI имеет аналогично похожий механизм затягивания на себя части данных для организации быстрого анализа, ну разве что без чипа, но с другой стороны значит и без привязки к конкретному оборудованию. В общем мне до конца не понятный продукт, одно понятно было изначально и 100% - нам он не подходит по требованиям. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 01:05 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ASCRUS, А что вместо SQL Central используете? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.11.2012, 22:47 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
_DogASCRUS, А что вместо SQL Central используете? Eclipse с плагином DBViewer, еще народ на Белке сидит. В принципе любой JDBC клиент подходит, даже тот же ISQL с комплекта Sybase. Так же накатал под PowerDesigner небольшой плагин на реверс таблиц и представлений, чтобы физ модель видеть наглядно. Сейчас подумываем расширить этот плагин до уровня полноценного с поддержкой всех фич и генерацией скриптов на создание и изменение объектов. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.11.2012, 23:07 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
ASCRUS, Лёша, привет. А PD у вас откуда взялся :) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.11.2012, 16:36 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Привет Юра. PD триальный, чтобы его купить надо что то показать. Чтобы что то показать, надо сделать реверс. Пока к сожалению показать кроме табличек нечего, Sybase ответил, что поддержка Vertica не планируется, в духе вот купите его, потом попросите и мы поставим в планы. Очень печальная позиция, где надо пояснять руководству, почему купив продукт, мы еще должны будем потратить ресурс на его доработку до уровня работоспособности. В общем не переживай, пиратством не занимаемся ;) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.11.2012, 20:59 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
MasterZivя к тому, что терабайты-то разные бывают. У меня например вот 53 миллиарда записей, но терабайт только 4, ибо компрессия. Если не секрет, в какой компании, или хотя бы в какой отрасли такая база? И что в двух словах в ней хранится? Меня звали на работу в фирму, где в терадатовском хранилище 2ярда записей. Я подумал, что это много. Потом узнал, что в eBay например их 17 ТРИЛЛИОНОВ в Greenplum, и 3 триллиона в терадате. Интересно, сколько в сбере? ... |
|||
:
Нравится:
Не нравится:
|
|||
07.12.2012, 15:47 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
megaexpertMasterZivя к тому, что терабайты-то разные бывают. У меня например вот 53 миллиарда записей, но терабайт только 4, ибо компрессия. Если не секрет, в какой компании, или хотя бы в какой отрасли такая база? И что в двух словах в ней хранится? Меня звали на работу в фирму, где в терадатовском хранилище 2ярда записей. Я подумал, что это много. Потом узнал, что в eBay например их 17 ТРИЛЛИОНОВ в Greenplum, и 3 триллиона в терадате. Интересно, сколько в сбере? Пару лет назад Ebay вроде как собирался мигрировать GreenPlum в пользу Терадаты. http://www.dbms2.com/2010/10/06/ebay-followup-greenplum-out-teradata-10-petabytes-hadoop-has-some-value-and-more/ ... |
|||
:
Нравится:
Не нравится:
|
|||
09.12.2012, 05:54 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
megaexpertMasterZivя к тому, что терабайты-то разные бывают. У меня например вот 53 миллиарда записей, но терабайт только 4, ибо компрессия. Если не секрет, в какой компании, или хотя бы в какой отрасли такая база? И что в двух словах в ней хранится? Меня звали на работу в фирму, где в терадатовском хранилище 2ярда записей. Я подумал, что это много. Потом узнал, что в eBay например их 17 ТРИЛЛИОНОВ в Greenplum, и 3 триллиона в терадате. Интересно, сколько в сбере?например в северо-западном сбере в день если нет никаких дополнительных операций типа начисления процентов, в день делается примерно полмиллиона проводок, хранится только последний год ... |
|||
:
Нравится:
Не нравится:
|
|||
10.12.2012, 19:17 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Павел НовокшоновПару лет назад Ebay вроде как собирался мигрировать GreenPlum в пользу Терадаты. Были какие-то траблы у них, но все так и осталось. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.12.2012, 21:24 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
VovakaПавел НовокшоновПару лет назад Ebay вроде как собирался мигрировать GreenPlum в пользу Терадаты. Были какие-то траблы у них, но все так и осталось. Подозреваю, что с уходом Оливера эта тема заглохла. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.12.2012, 23:14 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
SergSupermegaexpertпропущено... Если не секрет, в какой компании, или хотя бы в какой отрасли такая база? И что в двух словах в ней хранится? Меня звали на работу в фирму, где в терадатовском хранилище 2ярда записей. Я подумал, что это много. Потом узнал, что в eBay например их 17 ТРИЛЛИОНОВ в Greenplum, и 3 триллиона в терадате. Интересно, сколько в сбере?например в северо-западном сбере в день если нет никаких дополнительных операций типа начисления процентов, в день делается примерно полмиллиона проводок, хранится только последний год мы делали проект миграции их ИАСКа - там были не такие уж большие базы. до десятка террабайт. насчет остальных систем - не в курсе. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2013, 22:33 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
megaexpertЕсли не секрет, в какой компании, или хотя бы в какой отрасли такая база? И что в двух словах в ней хранится? например, подневные остатки товаров за 10 лет для ритейла (сотня тысяч номенклатур и несколько тысяч магазинов) ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2013, 14:22 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
впрочем, тут не нужно упомянутое ПО, и MSSQL, и Oracle вполне справляются ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2013, 14:23 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Vovaka100ТБ - это оценочная прикидка года через 3. Телеком. Ну вот типичный пример одной из многих сущностей: сейчас порядка 100 млн записей в сутки, далее будет только расти, сырые данные нужны как минимум месяца 3, далее можно слегка агрегировать + нужно еще сразу несколько агрегатов держать. Есть еще нетипичные примеры, когда записей в секунду сейчас порядка 200 тысяч . Т.е. порядка 17 млрд записей в сутки :) Тут не нужно ничего агрегировать, нужен просто быстрый поиск. вопросы: - быстрый поиск нужен для одной записи, или для массива записей? если для массива записей, общий признак (по которому агрегатируете) у этого массива записей есть, или это записи из разных групп, ничем логически не связанные? - как часто нужен этот быстрый поиск? если точно не можете сказать, и приблизительно затрудняетесь, то, хотя бы, как часто по сравнению с частотой вставки записей? ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2013, 17:15 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
потому как уж очень задача смахивает на уже давно решённую. раздельные структуры: - для дерева агрегатов, оптимизированная на изменение - для массива фактов, оптимизированная на вставку каждая вставка единичного факта приводит к изменению соответствующих агрегатов. факты можно вставлять единично, группами, батчами. но из-за специализации структур хранения, факты не адресуемы единично. факты пишутся в хронологическом порядке, с возможностью вынуть пачку фактов от заданного начального до заданного конечного таймстампа, и уже вынуть из пачки нужный "вручную" - программно. Работает уже давно и прекрасно, скорости вставки машино-генерируемых данных очень высокие. Состряпать, в принципе, недолго, к тому же есть чудный TPNS (teleprocessing network simulator) который замечательно симулирует кучу сетевых клиентов, которые люто шлют пакеты. Так что сразу можно и посмотреть. В принципе, по цене будет в пределах связки WAS + DB2, то есть, если я правильно понимаю, и в пределах стоимости неттезы, плюс-минус. Да, только никто это дело хранилищем не обзывал. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2013, 19:30 |
|
Vertica vs Netezza vs Grennplum
|
|||
---|---|---|---|
#18+
Vovaka, авторОбъем ХД планируется до сотни ТБ через несколько лет Дурное дело нехитрое... ... |
|||
:
Нравится:
Не нравится:
|
|||
21.12.2013, 20:16 |
|
|
start [/forum/topic.php?all=1&fid=35&tid=1552410]: |
0ms |
get settings: |
11ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
34ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
100ms |
get tp. blocked users: |
1ms |
others: | 256ms |
total: | 434ms |
0 / 0 |