powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Другие СУБД [игнор отключен] [закрыт для гостей] / Column oriented Databases: что это?
23 сообщений из 23, страница 1 из 1
Column oriented Databases: что это?
    #37992481
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Для чего они? На каких задачах специализируются? в чем различие с NoSQL?
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37992488
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кхм...
Можно я отвечу ?

В основном они для реализации огромных хранилищ данных и OLAP -решений.
Специализируются на в основном read-only базах данных, больших или очень больших по объёму, со сложными запросами к ним.

От NOSQL отличаются -- собственно, SQL или NoSQL -- это вопрос десятый, columnstore -- это способ ХРАНЕНИЯ данных, а
SQL или NoSQL -- способ обработки данных. Но наверное реализовывать columnstore без поддержки мощного языка запросов бессмысленно -- зачем бы он был нужен ?

Но по существующим NoSQL / Columnstore системам в двух словах -- это две большие разницы, NoSQL в общем скорее для OLTP, а Columnstore для хранилищ данных и для OLAP.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37992493
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В основном для решения задач аналитики, поколоночное хранение очень хорошо подходит под специфику хранилищ данных, позволяет лучше сжимать данные, повышать производительность запросов.
NoSQL маркетинговый термин для обозначения технологий, которым уже под сраку лет.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37992526
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
спасибо, коллеги, проясняется. Т.е. факт в том, что для колоночно-ориентированных баз апдейт (инсерт, делете) не просто делать.
Собственно, это и видно на примере columstore index от SQL Server 2012
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37994527
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Winnipuhспасибо, коллеги, проясняется. Т.е. факт в том, что для колоночно-ориентированных баз апдейт (инсерт, делете) не просто делать.
Собственно, это и видно на примере columstore index от SQL Server 2012
В любых BigData операция обновления считается дорогостоящей и применяется редко. Обычно могут изменятся измерения, факты изменяться не должны. А для измерений так же применяется схема проектирования БД, где они хранятся версиями аля SCD (измерения, медленно изменяющиеся во времени). Ну и к тому же для колонко-ориентированных апдейт вообще штука вредная, так как их основная фишка это возможность сильной денормализации данных для ускорения выполнения запросов, а здесь уже поле в справочнике не проапдейтишь, если оно же в фактах продублировано. Здесь выход, только новые версии записей справочников. С версиями тоже не все так просто - если делать дату начала и конца версии или признак активной, то при изменении записи справочника их опять же надо апдейтить. Если в день апдейтится пару тысяч записей измерения, то это еще терпимо. А если пару миллионов, то этот вариант уже плох. Решение зависит впервую очередь от возможностей СУБД.

В Оракле это моими коллегами решается через партиционирование. Я работаю с Vertica, здесь партициями делу не поможешь, так как они предназначены для быстрого удаления данных, но никак не апдейта. Здесь получается мне выгоднее применить гибридную схему хранения больших измерений в виде двух таблиц - актуальной и истории, где с актуальной таблицы записи удаляются DELETE (если их удаляться не сильно много будет за проход джоба) и переносятся в историю. Или же, если обновляется большая часть актуальных записей, легче тогда просто копировать не измененные записи актуальной таблицы во времянку, добавлять туда новые и измененные, очищать актуальную таблицу и вставлять с нее записи с времянки. По скорости выходит на порядки. Ну и на историчной таблице конечно же играет свою роль порядок сортировки таблицы для быстрого доступа к данным по версиям. На выходе пишется представление, сцепляющее актуальную и архивную информацию через UNION ALL и получается достаточно шустро работающая на запросы и обновления схема.

В общем везде по разному. Но в любом случае самый главный момент - это подход к проектированию структуры с учетом особенностей используемой СУБД, с максимальным использованием плюсов и внимательным отношениям к минусам. У нас например, в реалтайме постоянно идет загрузка большого объема сетевых и финансовых данных с различных источников и не смотря на то, что Vertica колонко ориентированный сервер, справляется на ура, одновременно обслуживая до сотни аналитических запросов для BI систем, другого ПО и веб сервисов. Но, чтобы добиться этого, пришлось изрядно походить по граблям при проектировании структур данных, алгоритмов загрузки данных, распределением нагрузок и т.д. Сейчас в большинстве своем приходится бороться не с Vertica, а ораклистами, которые пытаются писать загрузки и запросы в oracle-style, что очень негативно сказывается на работе сервера и приходится постоянно контролировать, чтобы они не запустили какой нибудь SELECT * на таблицу с миллиардами записей или же не попытались грохнуть миллион записей, чтобы вставить точно такой же миллион плюс одну измененную запись.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37995436
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
спасибо за развернутый ответ
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37996617
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSВ любых BigData операция обновления считается дорогостоящей и применяется редко.
Просто для пояснения: не путайте VLDB с Big Data . Разные вещи: ключевое отличие Big Data в сложности и разнообразии формата данных, а не просто наличие большых объемов.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37996976
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexASCRUSВ любых BigData операция обновления считается дорогостоящей и применяется редко.
Просто для пояснения: не путайте VLDB с Big Data . Разные вещи: ключевое отличие Big Data в сложности и разнообразии формата данных, а не просто наличие большых объемов.
А я вроде так и написал, что именно в BigData операция обновления считается дорогостоящей. В очень большой БД я не вижу проблем с обновлением. Тот же Oracle или Sybase на больших базах спокойно у нас переваривает такие операции при должном тюнинге, а вот Vertica как не тюнингуй, потребует изменение самих подходов алгоритмов хранения и обновления данных.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37997006
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSApexпропущено...

Просто для пояснения: не путайте VLDB с Big Data . Разные вещи: ключевое отличие Big Data в сложности и разнообразии формата данных, а не просто наличие большых объемов.
А я вроде так и написал, что именно в BigData операция обновления считается дорогостоящей. В очень большой БД я не вижу проблем с обновлением. Тот же Oracle или Sybase на больших базах спокойно у нас переваривает такие операции при должном тюнинге, а вот Vertica как не тюнингуй, потребует изменение самих подходов алгоритмов хранения и обновления данных.Big Data - это volume данных, velocity появления новых данных и, как сказал Apex, variety форматов (три V). Кстати, не обязательно все 3 сразу должны присутствовать. Так что VLDB тоже можно назвать Big Data чем и пользуются всякие EMC, Hana и иже с ними.

Другое дело, что помимо самих больших данных должен существовать еще и подход к их обработке. И этот подход подразумевает:
- массивный параллелизм, чтобы справиться с большим объемом данных. Здесь игроками являются всякие Hadoop-совместимые и несовместимые вендоры.
- системы с быстрым откликом, чтобы справляться с быстро поступающей информацией (тут нам нужны NoSQL базы, иногда In-Memory)
- способность обрабатывать разнообразную информацию (должны быть библиотеки для работы с данными - графические, статистические, социальные сети и т.д.)
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37997205
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не очень уловаливаю суть заявлений :) И тем более не понимаю, почему BigData должна быть Hadoop, NoSQL или уж тем более In-Memory. Та же Vertica прекрасно вписывается под определение BigData без этих трех волшебных слов, причем является MPP, колонкоориентированной, 100% ANSI SQL совместимым сервером. И кстати прекрасно демонстрирующим массовый параллелизм, реалтайм загрузку массивов данных и способный проводить обработку и анализ разнообразных видов информации без использования модных слов ;) Однако в любом случае мне становится интересным, моя фраза
В любых BigData операция обновления считается дорогостоящей и применяется редко.
имеет по Вашему мнению какие то противоречия с Вашим пониманием "BigData" ? :)
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37997276
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSНе очень уловаливаю суть заявлений :) И тем более не понимаю, почему BigData должна быть Hadoop, NoSQL или уж тем более In-Memory. Та же Vertica прекрасно вписывается под определение BigData без этих трех волшебных слов, причем является MPP, колонкоориентированной, 100% ANSI SQL совместимым сервером. И кстати прекрасно демонстрирующим массовый параллелизм, реалтайм загрузку массивов данных и способный проводить обработку и анализ разнообразных видов информации без использования модных слов ;) Однако в любом случае мне становится интересным, моя фраза
В любых BigData операция обновления считается дорогостоящей и применяется редко.
имеет по Вашему мнению какие то противоречия с Вашим пониманием "BigData" ? :)Почему BigData должна быть Hadoop - почитайте документы, написанные в Vertica .
Почему In-Memory, потому что Vertica тоже частично In-Memory, чтобы обеспечить высокую скорость записи. Я про WOS говорю.

Короче, Vertica может без извращений только Volume, Velocity с извращениями (я не знаю ни одного промышленного инструмента, который поддерживал доставку изменений в Vertica), Variety вообще никак, иначе в HP тупые менеджеры, которые зря заплатили 10 млрд.$ за Autonomy
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37997712
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinASCRUSНе очень уловаливаю суть заявлений :) И тем более не понимаю, почему BigData должна быть Hadoop, NoSQL или уж тем более In-Memory. Та же Vertica прекрасно вписывается под определение BigData без этих трех волшебных слов, причем является MPP, колонкоориентированной, 100% ANSI SQL совместимым сервером. И кстати прекрасно демонстрирующим массовый параллелизм, реалтайм загрузку массивов данных и способный проводить обработку и анализ разнообразных видов информации без использования модных слов ;) Однако в любом случае мне становится интересным, моя фраза
пропущено...

имеет по Вашему мнению какие то противоречия с Вашим пониманием "BigData" ? :)Почему BigData должна быть Hadoop - почитайте документы, написанные в Vertica .
Почему In-Memory, потому что Vertica тоже частично In-Memory, чтобы обеспечить высокую скорость записи. Я про WOS говорю.

Короче, Vertica может без извращений только Volume, Velocity с извращениями (я не знаю ни одного промышленного инструмента, который поддерживал доставку изменений в Vertica), Variety вообще никак, иначе в HP тупые менеджеры, которые зря заплатили 10 млрд.$ за Autonomy
Извините, но WOS и in-memory это разные вещи под разные цели. Vertica заточена под большие объемы структурированных данных, Hadoop под не структуированные. А вообще BigData сильно расплывчатый термин, чтобы под него равнять продукты и технологии. Тот же Hadoop на фоне Вертики при работе со структурированными данными будет отставать по скорости выполнения запросов на порядки, но это не означает, что его нельзя причислить к BigData.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37997767
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSТот же Hadoop на фоне Вертики при работе со структурированными данными будет отставать по скорости выполнения запросов на порядки...Хехе, это вы из расчета на 1 Mhz, или на 1$?
Повторюсь, Vertica может быть причислена к Big Data, но только по одной из трех V.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37997961
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinASCRUSТот же Hadoop на фоне Вертики при работе со структурированными данными будет отставать по скорости выполнения запросов на порядки...Хехе, это вы из расчета на 1 Mhz, или на 1$?
Повторюсь, Vertica может быть причислена к Big Data, но только по одной из трех V.
Из любого расчета. И в любой конфигурации. Лицензирование не ограничивает размеры и параметры кластера, так что она не зря на Амазоне в облаках крутиться.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37998110
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSAlexander Ryndinпропущено...
Хехе, это вы из расчета на 1 Mhz, или на 1$?
Повторюсь, Vertica может быть причислена к Big Data, но только по одной из трех V.
Из любого расчета. И в любой конфигурации. Лицензирование не ограничивает размеры и параметры кластера, так что она не зря на Амазоне в облаках крутиться.О, да! :) Стоимость 100.000$/TB это отличная цена. Особенно такая цена актуальна для BigData, где объемы считаются на 10-ки ТБ.
Решение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37998167
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander Ryndin...где объемы считаются на 10-ки ТБ. А часто и на 100-ни ТБ. Короче, я уже сильно засомневался, что Vertica - это Big Data, даже с точки зрения Volume. 100-Тб решение без железа стоит 10 млн.$ Офигеть.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37999466
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinASCRUSпропущено...

Из любого расчета. И в любой конфигурации. Лицензирование не ограничивает размеры и параметры кластера, так что она не зря на Амазоне в облаках крутиться.О, да! :) Стоимость 100.000$/TB это отличная цена. Особенно такая цена актуальна для BigData, где объемы считаются на 10-ки ТБ.
Решение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу.
У нас сейчас 2 лицензии - одна на 30 тб , вторая анлим (идет в составе купленного штатовского софта под автоматизацию телекома). Ни о каких миллионах там речи нету. На нашу лицензию, расчетный прирост данных при полной нагрузке в итоге выйдет порядка 10 тб в год, где большая часть исходной информации будет храниться 3 года, агрегаты будут хранится еще дольше. Естественно мы будем докупать сервера и лицензию, сервера в следующем году, лицензию видимо через годик, если конечно не появятся новые не запланированные источники данных. Чем выше объем лицензии, тем ниже ее стоимость. Так что на выходе в итоге получается Вертика подороже Гринплама или Нетизы, но дешевле, чем Терадата.

P.S. Я понимаю, что Вы умеете пользоваться Гуглом, но приводить ссылки на статьи с устаревшей информацией 2009 года без приведения планки и публикования российских цен не очень корректно. Ну и по теме топика хотелось бы от Вас хоть что то услышать по Vertical DBMS vs NoSQL. Обсуждение кто-что BigData или не BigData немного не в теме топика:)
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37999512
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ух и понаписали... даже не знаю с чего начать:)

Alexander RyndinРешение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу.
Ну да, только закупить при этом надо минимум 100 Тб, да?:) Да и 2.5 К за Тб для файлопомойки, коей фактически является Hadoop дороговато.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #37999527
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexУх и понаписали... даже не знаю с чего начать:)

Alexander RyndinРешение на Hadoop от Oracle стоит 2.500$/TB и это вместе с железом. Что называется, почувствуй разницу.
Ну да, только закупить при этом надо минимум 100 Тб, да?:) Да и 2.5 К за Тб для файлопомойки, коей фактически является Hadoop дороговато.1) Файлопомойка файлопомойке рознь.
2) Даже для обычной файлопомойки стоимость низка - сходи сравни хотя бы с ZFS
3) Я бы согласился со знаком равенства между файлопомойкой и Big Data Appliance, если бы не было HDFS, Hadoop, Hive, Oracle NoSQL, Oracle R.... Но давай все же прекратим офтопить.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #38000163
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinСтоимость 100.000$/TB это отличная цена

Маркетологи Вертики/НР нервно будут грызть ногти, когда узнают почем могли бы продавать :)
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #38000186
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VovakaAlexander RyndinСтоимость 100.000$/TB это отличная цена

Маркетологи Вертики/НР нервно будут грызть ногти, когда узнают почем могли бы продавать :)Ну это pricelist. Естественно от него дают скидку. Это у любого вендора так.
Но если у вас есть данные о стоимости, то рассказали бы.
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #38002587
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinНу это pricelist. Естественно от него дают скидку. Это у любого вендора так.
Но если у вас есть данные о стоимости, то рассказали бы.

Ну я не уверен, что могу раскрывать данные, которых нет в свободном доступе. Прайс-лист конечно есть, цена за 1 ТБ сильно зависит от нужно вам объема и сильно падает при росте. Есть некий GPL, от которого сразу есть скидка, но даже GPL без учета скидки на объем в 1 ТБ - и то меньше. Может и правда когда-то столько и стоило ...
...
Рейтинг: 0 / 0
Column oriented Databases: что это?
    #38014636
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhДля чего они? На каких задачах специализируются?Для OLAP, особенно больших и разношерстных данных. Обновление относительно дорого, и lock escalation не очень удобно организовывать, поэтому в OLTP они не популярны. Хотя есть ещё "промежуточные" варианты "columns inside page" и "columns inside extent", но как-то они не очень пошли.
...
Рейтинг: 0 / 0
23 сообщений из 23, страница 1 из 1
Форумы / Другие СУБД [игнор отключен] [закрыт для гостей] / Column oriented Databases: что это?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]