Column oriented Databases: что это? / Другие СУБД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Другие СУБД [игнор отключен] [закрыт для гостей] / Column oriented Databases: что это?

23 сообщений из 23, страница 1 из 1

Column oriented Databases: что это?

#37992481

Winnipuh

Участник

Откуда: Київ

Сообщения: 10 496

Рейтинг: 0 / 0

Для чего они? На каких задачах специализируются? в чем различие с NoSQL?

...

Рейтинг:

0 / 0

10.10.2012, 19:57

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37992488

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

Кхм...
Можно я отвечу ?

В основном они для реализации огромных хранилищ данных и OLAP -решений.
Специализируются на в основном read-only базах данных, больших или очень больших по объёму, со сложными запросами к ним.

От NOSQL отличаются -- собственно, SQL или NoSQL -- это вопрос десятый, columnstore -- это способ ХРАНЕНИЯ данных, а
SQL или NoSQL -- способ обработки данных. Но наверное реализовывать columnstore без поддержки мощного языка запросов бессмысленно -- зачем бы он был нужен ?

Но по существующим NoSQL / Columnstore системам в двух словах -- это две большие разницы, NoSQL в общем скорее для OLTP, а Columnstore для хранилищ данных и для OLAP.

...

Рейтинг:

0 / 0

10.10.2012, 20:09

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37992493

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

В основном для решения задач аналитики, поколоночное хранение очень хорошо подходит под специфику хранилищ данных, позволяет лучше сжимать данные, повышать производительность запросов.
NoSQL маркетинговый термин для обозначения технологий, которым уже под сраку лет.

...

Рейтинг:

0 / 0

10.10.2012, 20:11

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37992526

Winnipuh

Участник

Откуда: Київ

Сообщения: 10 496

Рейтинг: 0 / 0

спасибо, коллеги, проясняется. Т.е. факт в том, что для колоночно-ориентированных баз апдейт (инсерт, делете) не просто делать.
Собственно, это и видно на примере columstore index от SQL Server 2012

...

Рейтинг:

0 / 0

10.10.2012, 20:32

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37994527

ASCRUS

Участник

Откуда: МО Электросталь

Сообщения: 5 642

Рейтинг: 0 / 0

Winnipuhспасибо, коллеги, проясняется. Т.е. факт в том, что для колоночно-ориентированных баз апдейт (инсерт, делете) не просто делать.
Собственно, это и видно на примере columstore index от SQL Server 2012
В любых BigData операция обновления считается дорогостоящей и применяется редко. Обычно могут изменятся измерения, факты изменяться не должны. А для измерений так же применяется схема проектирования БД, где они хранятся версиями аля SCD (измерения, медленно изменяющиеся во времени). Ну и к тому же для колонко-ориентированных апдейт вообще штука вредная, так как их основная фишка это возможность сильной денормализации данных для ускорения выполнения запросов, а здесь уже поле в справочнике не проапдейтишь, если оно же в фактах продублировано. Здесь выход, только новые версии записей справочников. С версиями тоже не все так просто - если делать дату начала и конца версии или признак активной, то при изменении записи справочника их опять же надо апдейтить. Если в день апдейтится пару тысяч записей измерения, то это еще терпимо. А если пару миллионов, то этот вариант уже плох. Решение зависит впервую очередь от возможностей СУБД.

В Оракле это моими коллегами решается через партиционирование. Я работаю с Vertica, здесь партициями делу не поможешь, так как они предназначены для быстрого удаления данных, но никак не апдейта. Здесь получается мне выгоднее применить гибридную схему хранения больших измерений в виде двух таблиц - актуальной и истории, где с актуальной таблицы записи удаляются DELETE (если их удаляться не сильно много будет за проход джоба) и переносятся в историю. Или же, если обновляется большая часть актуальных записей, легче тогда просто копировать не измененные записи актуальной таблицы во времянку, добавлять туда новые и измененные, очищать актуальную таблицу и вставлять с нее записи с времянки. По скорости выходит на порядки. Ну и на историчной таблице конечно же играет свою роль порядок сортировки таблицы для быстрого доступа к данным по версиям. На выходе пишется представление, сцепляющее актуальную и архивную информацию через UNION ALL и получается достаточно шустро работающая на запросы и обновления схема.

В общем везде по разному. Но в любом случае самый главный момент - это подход к проектированию структуры с учетом особенностей используемой СУБД, с максимальным использованием плюсов и внимательным отношениям к минусам. У нас например, в реалтайме постоянно идет загрузка большого объема сетевых и финансовых данных с различных источников и не смотря на то, что Vertica колонко ориентированный сервер, справляется на ура, одновременно обслуживая до сотни аналитических запросов для BI систем, другого ПО и веб сервисов. Но, чтобы добиться этого, пришлось изрядно походить по граблям при проектировании структур данных, алгоритмов загрузки данных, распределением нагрузок и т.д. Сейчас в большинстве своем приходится бороться не с Vertica, а ораклистами, которые пытаются писать загрузки и запросы в oracle-style, что очень негативно сказывается на работе сервера и приходится постоянно контролировать, чтобы они не запустили какой нибудь SELECT * на таблицу с миллиардами записей или же не попытались грохнуть миллион записей, чтобы вставить точно такой же миллион плюс одну измененную запись.

...

Рейтинг:

0 / 0

11.10.2012, 20:58

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37995436

Winnipuh

Участник

Откуда: Київ

Сообщения: 10 496

Рейтинг: 0 / 0

спасибо за развернутый ответ

...

Рейтинг:

0 / 0

12.10.2012, 12:54

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37996617

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

ASCRUSВ любых BigData операция обновления считается дорогостоящей и применяется редко.
Просто для пояснения: не путайте VLDB с Big Data . Разные вещи: ключевое отличие Big Data в сложности и разнообразии формата данных, а не просто наличие большых объемов.

...

Рейтинг:

0 / 0

12.10.2012, 23:34

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37996976

ASCRUS

Участник

Откуда: МО Электросталь

Сообщения: 5 642

Рейтинг: 0 / 0

ApexASCRUSВ любых BigData операция обновления считается дорогостоящей и применяется редко.
Просто для пояснения: не путайте VLDB с Big Data . Разные вещи: ключевое отличие Big Data в сложности и разнообразии формата данных, а не просто наличие большых объемов.
А я вроде так и написал, что именно в BigData операция обновления считается дорогостоящей. В очень большой БД я не вижу проблем с обновлением. Тот же Oracle или Sybase на больших базах спокойно у нас переваривает такие операции при должном тюнинге, а вот Vertica как не тюнингуй, потребует изменение самих подходов алгоритмов хранения и обновления данных.

...

Рейтинг:

0 / 0

13.10.2012, 15:51

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37997006

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

ASCRUSApexпропущено...

Просто для пояснения: не путайте VLDB с Big Data . Разные вещи: ключевое отличие Big Data в сложности и разнообразии формата данных, а не просто наличие большых объемов.
А я вроде так и написал, что именно в BigData операция обновления считается дорогостоящей. В очень большой БД я не вижу проблем с обновлением. Тот же Oracle или Sybase на больших базах спокойно у нас переваривает такие операции при должном тюнинге, а вот Vertica как не тюнингуй, потребует изменение самих подходов алгоритмов хранения и обновления данных.Big Data - это volume данных, velocity появления новых данных и, как сказал Apex, variety форматов (три V). Кстати, не обязательно все 3 сразу должны присутствовать. Так что VLDB тоже можно назвать Big Data чем и пользуются всякие EMC, Hana и иже с ними.

Другое дело, что помимо самих больших данных должен существовать еще и подход к их обработке. И этот подход подразумевает:
- массивный параллелизм, чтобы справиться с большим объемом данных. Здесь игроками являются всякие Hadoop-совместимые и несовместимые вендоры.
- системы с быстрым откликом, чтобы справляться с быстро поступающей информацией (тут нам нужны NoSQL базы, иногда In-Memory)
- способность обрабатывать разнообразную информацию (должны быть библиотеки для работы с данными - графические, статистические, социальные сети и т.д.)

...

Рейтинг:

0 / 0

13.10.2012, 16:40

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37997205

ASCRUS

Участник

Откуда: МО Электросталь

Сообщения: 5 642

Рейтинг: 0 / 0

Не очень уловаливаю суть заявлений :) И тем более не понимаю, почему BigData должна быть Hadoop, NoSQL или уж тем более In-Memory. Та же Vertica прекрасно вписывается под определение BigData без этих трех волшебных слов, причем является MPP, колонкоориентированной, 100% ANSI SQL совместимым сервером. И кстати прекрасно демонстрирующим массовый параллелизм, реалтайм загрузку массивов данных и способный проводить обработку и анализ разнообразных видов информации без использования модных слов ;) Однако в любом случае мне становится интересным, моя фраза
В любых BigData операция обновления считается дорогостоящей и применяется редко.
имеет по Вашему мнению какие то противоречия с Вашим пониманием "BigData" ? :)

...

Рейтинг:

0 / 0

13.10.2012, 21:45

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37997276

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

ASCRUSНе очень уловаливаю суть заявлений :) И тем более не понимаю, почему BigData должна быть Hadoop, NoSQL или уж тем более In-Memory. Та же Vertica прекрасно вписывается под определение BigData без этих трех волшебных слов, причем является MPP, колонкоориентированной, 100% ANSI SQL совместимым сервером. И кстати прекрасно демонстрирующим массовый параллелизм, реалтайм загрузку массивов данных и способный проводить обработку и анализ разнообразных видов информации без использования модных слов ;) Однако в любом случае мне становится интересным, моя фраза
В любых BigData операция обновления считается дорогостоящей и применяется редко.
имеет по Вашему мнению какие то противоречия с Вашим пониманием "BigData" ? :)Почему BigData должна быть Hadoop - почитайте документы, написанные в Vertica .
Почему In-Memory, потому что Vertica тоже частично In-Memory, чтобы обеспечить высокую скорость записи. Я про WOS говорю.

Короче, Vertica может без извращений только Volume, Velocity с извращениями (я не знаю ни одного промышленного инструмента, который поддерживал доставку изменений в Vertica), Variety вообще никак, иначе в HP тупые менеджеры, которые зря заплатили 10 млрд.$ за Autonomy

...

Рейтинг:

0 / 0

13.10.2012, 23:00

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37997712

ASCRUS

Участник

Откуда: МО Электросталь

Сообщения: 5 642

Рейтинг: 0 / 0

Alexander RyndinASCRUSНе очень уловаливаю суть заявлений :) И тем более не понимаю, почему BigData должна быть Hadoop, NoSQL или уж тем более In-Memory. Та же Vertica прекрасно вписывается под определение BigData без этих трех волшебных слов, причем является MPP, колонкоориентированной, 100% ANSI SQL совместимым сервером. И кстати прекрасно демонстрирующим массовый параллелизм, реалтайм загрузку массивов данных и способный проводить обработку и анализ разнообразных видов информации без использования модных слов ;) Однако в любом случае мне становится интересным, моя фраза
пропущено...

имеет по Вашему мнению какие то противоречия с Вашим пониманием "BigData" ? :)Почему BigData должна быть Hadoop - почитайте документы, написанные в Vertica .
Почему In-Memory, потому что Vertica тоже частично In-Memory, чтобы обеспечить высокую скорость записи. Я про WOS говорю.

Короче, Vertica может без извращений только Volume, Velocity с извращениями (я не знаю ни одного промышленного инструмента, который поддерживал доставку изменений в Vertica), Variety вообще никак, иначе в HP тупые менеджеры, которые зря заплатили 10 млрд.$ за Autonomy
Извините, но WOS и in-memory это разные вещи под разные цели. Vertica заточена под большие объемы структурированных данных, Hadoop под не структуированные. А вообще BigData сильно расплывчатый термин, чтобы под него равнять продукты и технологии. Тот же Hadoop на фоне Вертики при работе со структурированными данными будет отставать по скорости выполнения запросов на порядки, но это не означает, что его нельзя причислить к BigData.

...

Рейтинг:

0 / 0

14.10.2012, 19:22

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37997767

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

ASCRUSТот же Hadoop на фоне Вертики при работе со структурированными данными будет отставать по скорости выполнения запросов на порядки...Хехе, это вы из расчета на 1 Mhz, или на 1$?
Повторюсь, Vertica может быть причислена к Big Data, но только по одной из трех V.

...

Рейтинг:

0 / 0

14.10.2012, 20:59

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37997961

ASCRUS

Участник

Откуда: МО Электросталь

Сообщения: 5 642

Рейтинг: 0 / 0

Alexander RyndinASCRUSТот же Hadoop на фоне Вертики при работе со структурированными данными будет отставать по скорости выполнения запросов на порядки...Хехе, это вы из расчета на 1 Mhz, или на 1$?
Повторюсь, Vertica может быть причислена к Big Data, но только по одной из трех V.
Из любого расчета. И в любой конфигурации. Лицензирование не ограничивает размеры и параметры кластера, так что она не зря на Амазоне в облаках крутиться.

...

Рейтинг:

0 / 0

15.10.2012, 09:15

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37998110

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

ASCRUSAlexander Ryndinпропущено...
Хехе, это вы из расчета на 1 Mhz, или на 1$?
Повторюсь, Vertica может быть причислена к Big Data, но только по одной из трех V.
Из любого расчета. И в любой конфигурации. Лицензирование не ограничивает размеры и параметры кластера, так что она не зря на Амазоне в облаках крутиться.О, да! :) Стоимость 100.000$/TB это отличная цена. Особенно такая цена актуальна для BigData, где объемы считаются на 10-ки ТБ.
Решение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу.

...

Рейтинг:

0 / 0

15.10.2012, 10:39

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37998167

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

Alexander Ryndin...где объемы считаются на 10-ки ТБ. А часто и на 100-ни ТБ. Короче, я уже сильно засомневался, что Vertica - это Big Data, даже с точки зрения Volume. 100-Тб решение без железа стоит 10 млн.$ Офигеть.

...

Рейтинг:

0 / 0

15.10.2012, 11:15

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37999466

ASCRUS

Участник

Откуда: МО Электросталь

Сообщения: 5 642

Рейтинг: 0 / 0

Alexander RyndinASCRUSпропущено...

Из любого расчета. И в любой конфигурации. Лицензирование не ограничивает размеры и параметры кластера, так что она не зря на Амазоне в облаках крутиться.О, да! :) Стоимость 100.000$/TB это отличная цена. Особенно такая цена актуальна для BigData, где объемы считаются на 10-ки ТБ.
Решение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу.
У нас сейчас 2 лицензии - одна на 30 тб , вторая анлим (идет в составе купленного штатовского софта под автоматизацию телекома). Ни о каких миллионах там речи нету. На нашу лицензию, расчетный прирост данных при полной нагрузке в итоге выйдет порядка 10 тб в год, где большая часть исходной информации будет храниться 3 года, агрегаты будут хранится еще дольше. Естественно мы будем докупать сервера и лицензию, сервера в следующем году, лицензию видимо через годик, если конечно не появятся новые не запланированные источники данных. Чем выше объем лицензии, тем ниже ее стоимость. Так что на выходе в итоге получается Вертика подороже Гринплама или Нетизы, но дешевле, чем Терадата.

P.S. Я понимаю, что Вы умеете пользоваться Гуглом, но приводить ссылки на статьи с устаревшей информацией 2009 года без приведения планки и публикования российских цен не очень корректно. Ну и по теме топика хотелось бы от Вас хоть что то услышать по Vertical DBMS vs NoSQL. Обсуждение кто-что BigData или не BigData немного не в теме топика:)

...

Рейтинг:

0 / 0

15.10.2012, 23:56

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37999512

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Ух и понаписали... даже не знаю с чего начать:)

Alexander RyndinРешение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу.
Ну да, только закупить при этом надо минимум 100 Тб, да?:) Да и 2.5 К за Тб для файлопомойки, коей фактически является Hadoop дороговато.

...

Рейтинг:

0 / 0

16.10.2012, 01:31

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#37999527

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

ApexУх и понаписали... даже не знаю с чего начать:)

Alexander RyndinРешение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу.
Ну да, только закупить при этом надо минимум 100 Тб, да?:) Да и 2.5 К за Тб для файлопомойки, коей фактически является Hadoop дороговато.1) Файлопомойка файлопомойке рознь.
2) Даже для обычной файлопомойки стоимость низка - сходи сравни хотя бы с ZFS
3) Я бы согласился со знаком равенства между файлопомойкой и Big Data Appliance, если бы не было HDFS, Hadoop, Hive, Oracle NoSQL, Oracle R.... Но давай все же прекратим офтопить.

...

Рейтинг:

0 / 0

16.10.2012, 01:50

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#38000163

Vovaka

Участник

Откуда: Москва

Сообщения: 532

Рейтинг: 0 / 0

Alexander RyndinСтоимость 100.000$/TB это отличная цена

Маркетологи Вертики/НР нервно будут грызть ногти, когда узнают почем могли бы продавать :)

...

Рейтинг:

0 / 0

16.10.2012, 12:33

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#38000186

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

VovakaAlexander RyndinСтоимость 100.000$/TB это отличная цена

Маркетологи Вертики/НР нервно будут грызть ногти, когда узнают почем могли бы продавать :)Ну это pricelist. Естественно от него дают скидку. Это у любого вендора так.
Но если у вас есть данные о стоимости, то рассказали бы.

...

Рейтинг:

0 / 0

16.10.2012, 12:43

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#38002587

Vovaka

Участник

Откуда: Москва

Сообщения: 532

Рейтинг: 0 / 0

Alexander RyndinНу это pricelist. Естественно от него дают скидку. Это у любого вендора так.
Но если у вас есть данные о стоимости, то рассказали бы.

Ну я не уверен, что могу раскрывать данные, которых нет в свободном доступе. Прайс-лист конечно есть, цена за 1 ТБ сильно зависит от нужно вам объема и сильно падает при росте. Есть некий GPL, от которого сразу есть скидка, но даже GPL без учета скидки на объем в 1 ТБ - и то меньше. Может и правда когда-то столько и стоило ...

...

Рейтинг:

0 / 0

17.10.2012, 14:55

| Ответить | Цитировать | Написать

Column oriented Databases: что это?

#38014636

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

WinnipuhДля чего они? На каких задачах специализируются?Для OLAP, особенно больших и разношерстных данных. Обновление относительно дорого, и lock escalation не очень удобно организовывать, поэтому в OLTP они не популярны. Хотя есть ещё "промежуточные" варианты "columns inside page" и "columns inside extent", но как-то они не очень пошли.

...

Рейтинг:

0 / 0

26.10.2012, 15:00

| Ответить | Цитировать | Написать

23 сообщений из 23, страница 1 из 1

Форумы / Другие СУБД [игнор отключен] [закрыт для гостей] / Column oriented Databases: что это?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=56&msg=37997767&tid=2015305]:	0ms
get settings:	6ms
get forum list:	15ms
check forum access:	2ms
check topic access:	2ms
track hit:	25ms
get topic data:	8ms
get forum data:	2ms
get page messages:	55ms
get tp. blocked users:	1ms
others:	211ms

total:	327ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы