|
|
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Для чего они? На каких задачах специализируются? в чем различие с NoSQL? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.10.2012, 19:57 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Кхм... Можно я отвечу ? В основном они для реализации огромных хранилищ данных и OLAP -решений. Специализируются на в основном read-only базах данных, больших или очень больших по объёму, со сложными запросами к ним. От NOSQL отличаются -- собственно, SQL или NoSQL -- это вопрос десятый, columnstore -- это способ ХРАНЕНИЯ данных, а SQL или NoSQL -- способ обработки данных. Но наверное реализовывать columnstore без поддержки мощного языка запросов бессмысленно -- зачем бы он был нужен ? Но по существующим NoSQL / Columnstore системам в двух словах -- это две большие разницы, NoSQL в общем скорее для OLTP, а Columnstore для хранилищ данных и для OLAP. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.10.2012, 20:09 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
В основном для решения задач аналитики, поколоночное хранение очень хорошо подходит под специфику хранилищ данных, позволяет лучше сжимать данные, повышать производительность запросов. NoSQL маркетинговый термин для обозначения технологий, которым уже под сраку лет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.10.2012, 20:11 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
спасибо, коллеги, проясняется. Т.е. факт в том, что для колоночно-ориентированных баз апдейт (инсерт, делете) не просто делать. Собственно, это и видно на примере columstore index от SQL Server 2012 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.10.2012, 20:32 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Winnipuhспасибо, коллеги, проясняется. Т.е. факт в том, что для колоночно-ориентированных баз апдейт (инсерт, делете) не просто делать. Собственно, это и видно на примере columstore index от SQL Server 2012 В любых BigData операция обновления считается дорогостоящей и применяется редко. Обычно могут изменятся измерения, факты изменяться не должны. А для измерений так же применяется схема проектирования БД, где они хранятся версиями аля SCD (измерения, медленно изменяющиеся во времени). Ну и к тому же для колонко-ориентированных апдейт вообще штука вредная, так как их основная фишка это возможность сильной денормализации данных для ускорения выполнения запросов, а здесь уже поле в справочнике не проапдейтишь, если оно же в фактах продублировано. Здесь выход, только новые версии записей справочников. С версиями тоже не все так просто - если делать дату начала и конца версии или признак активной, то при изменении записи справочника их опять же надо апдейтить. Если в день апдейтится пару тысяч записей измерения, то это еще терпимо. А если пару миллионов, то этот вариант уже плох. Решение зависит впервую очередь от возможностей СУБД. В Оракле это моими коллегами решается через партиционирование. Я работаю с Vertica, здесь партициями делу не поможешь, так как они предназначены для быстрого удаления данных, но никак не апдейта. Здесь получается мне выгоднее применить гибридную схему хранения больших измерений в виде двух таблиц - актуальной и истории, где с актуальной таблицы записи удаляются DELETE (если их удаляться не сильно много будет за проход джоба) и переносятся в историю. Или же, если обновляется большая часть актуальных записей, легче тогда просто копировать не измененные записи актуальной таблицы во времянку, добавлять туда новые и измененные, очищать актуальную таблицу и вставлять с нее записи с времянки. По скорости выходит на порядки. Ну и на историчной таблице конечно же играет свою роль порядок сортировки таблицы для быстрого доступа к данным по версиям. На выходе пишется представление, сцепляющее актуальную и архивную информацию через UNION ALL и получается достаточно шустро работающая на запросы и обновления схема. В общем везде по разному. Но в любом случае самый главный момент - это подход к проектированию структуры с учетом особенностей используемой СУБД, с максимальным использованием плюсов и внимательным отношениям к минусам. У нас например, в реалтайме постоянно идет загрузка большого объема сетевых и финансовых данных с различных источников и не смотря на то, что Vertica колонко ориентированный сервер, справляется на ура, одновременно обслуживая до сотни аналитических запросов для BI систем, другого ПО и веб сервисов. Но, чтобы добиться этого, пришлось изрядно походить по граблям при проектировании структур данных, алгоритмов загрузки данных, распределением нагрузок и т.д. Сейчас в большинстве своем приходится бороться не с Vertica, а ораклистами, которые пытаются писать загрузки и запросы в oracle-style, что очень негативно сказывается на работе сервера и приходится постоянно контролировать, чтобы они не запустили какой нибудь SELECT * на таблицу с миллиардами записей или же не попытались грохнуть миллион записей, чтобы вставить точно такой же миллион плюс одну измененную запись. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2012, 20:58 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
спасибо за развернутый ответ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.10.2012, 12:54 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
ASCRUSВ любых BigData операция обновления считается дорогостоящей и применяется редко. Просто для пояснения: не путайте VLDB с Big Data . Разные вещи: ключевое отличие Big Data в сложности и разнообразии формата данных, а не просто наличие большых объемов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.10.2012, 23:34 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
ApexASCRUSВ любых BigData операция обновления считается дорогостоящей и применяется редко. Просто для пояснения: не путайте VLDB с Big Data . Разные вещи: ключевое отличие Big Data в сложности и разнообразии формата данных, а не просто наличие большых объемов. А я вроде так и написал, что именно в BigData операция обновления считается дорогостоящей. В очень большой БД я не вижу проблем с обновлением. Тот же Oracle или Sybase на больших базах спокойно у нас переваривает такие операции при должном тюнинге, а вот Vertica как не тюнингуй, потребует изменение самих подходов алгоритмов хранения и обновления данных. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2012, 15:51 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
ASCRUSApexпропущено... Просто для пояснения: не путайте VLDB с Big Data . Разные вещи: ключевое отличие Big Data в сложности и разнообразии формата данных, а не просто наличие большых объемов. А я вроде так и написал, что именно в BigData операция обновления считается дорогостоящей. В очень большой БД я не вижу проблем с обновлением. Тот же Oracle или Sybase на больших базах спокойно у нас переваривает такие операции при должном тюнинге, а вот Vertica как не тюнингуй, потребует изменение самих подходов алгоритмов хранения и обновления данных.Big Data - это volume данных, velocity появления новых данных и, как сказал Apex, variety форматов (три V). Кстати, не обязательно все 3 сразу должны присутствовать. Так что VLDB тоже можно назвать Big Data чем и пользуются всякие EMC, Hana и иже с ними. Другое дело, что помимо самих больших данных должен существовать еще и подход к их обработке. И этот подход подразумевает: - массивный параллелизм, чтобы справиться с большим объемом данных. Здесь игроками являются всякие Hadoop-совместимые и несовместимые вендоры. - системы с быстрым откликом, чтобы справляться с быстро поступающей информацией (тут нам нужны NoSQL базы, иногда In-Memory) - способность обрабатывать разнообразную информацию (должны быть библиотеки для работы с данными - графические, статистические, социальные сети и т.д.) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2012, 16:40 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Не очень уловаливаю суть заявлений :) И тем более не понимаю, почему BigData должна быть Hadoop, NoSQL или уж тем более In-Memory. Та же Vertica прекрасно вписывается под определение BigData без этих трех волшебных слов, причем является MPP, колонкоориентированной, 100% ANSI SQL совместимым сервером. И кстати прекрасно демонстрирующим массовый параллелизм, реалтайм загрузку массивов данных и способный проводить обработку и анализ разнообразных видов информации без использования модных слов ;) Однако в любом случае мне становится интересным, моя фраза В любых BigData операция обновления считается дорогостоящей и применяется редко. имеет по Вашему мнению какие то противоречия с Вашим пониманием "BigData" ? :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2012, 21:45 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
ASCRUSНе очень уловаливаю суть заявлений :) И тем более не понимаю, почему BigData должна быть Hadoop, NoSQL или уж тем более In-Memory. Та же Vertica прекрасно вписывается под определение BigData без этих трех волшебных слов, причем является MPP, колонкоориентированной, 100% ANSI SQL совместимым сервером. И кстати прекрасно демонстрирующим массовый параллелизм, реалтайм загрузку массивов данных и способный проводить обработку и анализ разнообразных видов информации без использования модных слов ;) Однако в любом случае мне становится интересным, моя фраза В любых BigData операция обновления считается дорогостоящей и применяется редко. имеет по Вашему мнению какие то противоречия с Вашим пониманием "BigData" ? :)Почему BigData должна быть Hadoop - почитайте документы, написанные в Vertica . Почему In-Memory, потому что Vertica тоже частично In-Memory, чтобы обеспечить высокую скорость записи. Я про WOS говорю. Короче, Vertica может без извращений только Volume, Velocity с извращениями (я не знаю ни одного промышленного инструмента, который поддерживал доставку изменений в Vertica), Variety вообще никак, иначе в HP тупые менеджеры, которые зря заплатили 10 млрд.$ за Autonomy ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2012, 23:00 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Alexander RyndinASCRUSНе очень уловаливаю суть заявлений :) И тем более не понимаю, почему BigData должна быть Hadoop, NoSQL или уж тем более In-Memory. Та же Vertica прекрасно вписывается под определение BigData без этих трех волшебных слов, причем является MPP, колонкоориентированной, 100% ANSI SQL совместимым сервером. И кстати прекрасно демонстрирующим массовый параллелизм, реалтайм загрузку массивов данных и способный проводить обработку и анализ разнообразных видов информации без использования модных слов ;) Однако в любом случае мне становится интересным, моя фраза пропущено... имеет по Вашему мнению какие то противоречия с Вашим пониманием "BigData" ? :)Почему BigData должна быть Hadoop - почитайте документы, написанные в Vertica . Почему In-Memory, потому что Vertica тоже частично In-Memory, чтобы обеспечить высокую скорость записи. Я про WOS говорю. Короче, Vertica может без извращений только Volume, Velocity с извращениями (я не знаю ни одного промышленного инструмента, который поддерживал доставку изменений в Vertica), Variety вообще никак, иначе в HP тупые менеджеры, которые зря заплатили 10 млрд.$ за Autonomy Извините, но WOS и in-memory это разные вещи под разные цели. Vertica заточена под большие объемы структурированных данных, Hadoop под не структуированные. А вообще BigData сильно расплывчатый термин, чтобы под него равнять продукты и технологии. Тот же Hadoop на фоне Вертики при работе со структурированными данными будет отставать по скорости выполнения запросов на порядки, но это не означает, что его нельзя причислить к BigData. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.10.2012, 19:22 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
ASCRUSТот же Hadoop на фоне Вертики при работе со структурированными данными будет отставать по скорости выполнения запросов на порядки...Хехе, это вы из расчета на 1 Mhz, или на 1$? Повторюсь, Vertica может быть причислена к Big Data, но только по одной из трех V. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.10.2012, 20:59 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Alexander RyndinASCRUSТот же Hadoop на фоне Вертики при работе со структурированными данными будет отставать по скорости выполнения запросов на порядки...Хехе, это вы из расчета на 1 Mhz, или на 1$? Повторюсь, Vertica может быть причислена к Big Data, но только по одной из трех V. Из любого расчета. И в любой конфигурации. Лицензирование не ограничивает размеры и параметры кластера, так что она не зря на Амазоне в облаках крутиться. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.10.2012, 09:15 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
ASCRUSAlexander Ryndinпропущено... Хехе, это вы из расчета на 1 Mhz, или на 1$? Повторюсь, Vertica может быть причислена к Big Data, но только по одной из трех V. Из любого расчета. И в любой конфигурации. Лицензирование не ограничивает размеры и параметры кластера, так что она не зря на Амазоне в облаках крутиться.О, да! :) Стоимость 100.000$/TB это отличная цена. Особенно такая цена актуальна для BigData, где объемы считаются на 10-ки ТБ. Решение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.10.2012, 10:39 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Alexander Ryndin...где объемы считаются на 10-ки ТБ. А часто и на 100-ни ТБ. Короче, я уже сильно засомневался, что Vertica - это Big Data, даже с точки зрения Volume. 100-Тб решение без железа стоит 10 млн.$ Офигеть. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.10.2012, 11:15 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Alexander RyndinASCRUSпропущено... Из любого расчета. И в любой конфигурации. Лицензирование не ограничивает размеры и параметры кластера, так что она не зря на Амазоне в облаках крутиться.О, да! :) Стоимость 100.000$/TB это отличная цена. Особенно такая цена актуальна для BigData, где объемы считаются на 10-ки ТБ. Решение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу. У нас сейчас 2 лицензии - одна на 30 тб , вторая анлим (идет в составе купленного штатовского софта под автоматизацию телекома). Ни о каких миллионах там речи нету. На нашу лицензию, расчетный прирост данных при полной нагрузке в итоге выйдет порядка 10 тб в год, где большая часть исходной информации будет храниться 3 года, агрегаты будут хранится еще дольше. Естественно мы будем докупать сервера и лицензию, сервера в следующем году, лицензию видимо через годик, если конечно не появятся новые не запланированные источники данных. Чем выше объем лицензии, тем ниже ее стоимость. Так что на выходе в итоге получается Вертика подороже Гринплама или Нетизы, но дешевле, чем Терадата. P.S. Я понимаю, что Вы умеете пользоваться Гуглом, но приводить ссылки на статьи с устаревшей информацией 2009 года без приведения планки и публикования российских цен не очень корректно. Ну и по теме топика хотелось бы от Вас хоть что то услышать по Vertical DBMS vs NoSQL. Обсуждение кто-что BigData или не BigData немного не в теме топика:) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.10.2012, 23:56 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Ух и понаписали... даже не знаю с чего начать:) Alexander RyndinРешение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу. Ну да, только закупить при этом надо минимум 100 Тб, да?:) Да и 2.5 К за Тб для файлопомойки, коей фактически является Hadoop дороговато. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.10.2012, 01:31 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
ApexУх и понаписали... даже не знаю с чего начать:) Alexander RyndinРешение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу. Ну да, только закупить при этом надо минимум 100 Тб, да?:) Да и 2.5 К за Тб для файлопомойки, коей фактически является Hadoop дороговато.1) Файлопомойка файлопомойке рознь. 2) Даже для обычной файлопомойки стоимость низка - сходи сравни хотя бы с ZFS 3) Я бы согласился со знаком равенства между файлопомойкой и Big Data Appliance, если бы не было HDFS, Hadoop, Hive, Oracle NoSQL, Oracle R.... Но давай все же прекратим офтопить. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.10.2012, 01:50 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Alexander RyndinСтоимость 100.000$/TB это отличная цена Маркетологи Вертики/НР нервно будут грызть ногти, когда узнают почем могли бы продавать :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.10.2012, 12:33 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
VovakaAlexander RyndinСтоимость 100.000$/TB это отличная цена Маркетологи Вертики/НР нервно будут грызть ногти, когда узнают почем могли бы продавать :)Ну это pricelist. Естественно от него дают скидку. Это у любого вендора так. Но если у вас есть данные о стоимости, то рассказали бы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.10.2012, 12:43 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
Alexander RyndinНу это pricelist. Естественно от него дают скидку. Это у любого вендора так. Но если у вас есть данные о стоимости, то рассказали бы. Ну я не уверен, что могу раскрывать данные, которых нет в свободном доступе. Прайс-лист конечно есть, цена за 1 ТБ сильно зависит от нужно вам объема и сильно падает при росте. Есть некий GPL, от которого сразу есть скидка, но даже GPL без учета скидки на объем в 1 ТБ - и то меньше. Может и правда когда-то столько и стоило ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.10.2012, 14:55 |
|
||
|
Column oriented Databases: что это?
|
|||
|---|---|---|---|
|
#18+
WinnipuhДля чего они? На каких задачах специализируются?Для OLAP, особенно больших и разношерстных данных. Обновление относительно дорого, и lock escalation не очень удобно организовывать, поэтому в OLTP они не популярны. Хотя есть ещё "промежуточные" варианты "columns inside page" и "columns inside extent", но как-то они не очень пошли. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.10.2012, 15:00 |
|
||
|
|

start [/forum/topic.php?fid=56&msg=37997767&tid=2015305]: |
0ms |
get settings: |
11ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
166ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
50ms |
get tp. blocked users: |
4ms |
| others: | 238ms |
| total: | 506ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...