|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
Всем привет, есть большая база данных. Ну как большая - 5-6 ТБ, при этом она растет в год примерно на 0,5..1 ТБ. Данные хорошо структурированы, т.е. это реляционная база. Никаких изображений, файлов и проч. - только таблицы с числами и буквами. Из них надо делать витрины, а потом отчетность. Вопрос: имеет ли смысл смотреть в сторону Hadoop? У нас сейчас стоит MS SQL Server + дисковая стойка, где данные распределяются между дисками, т.е. хорошо парралелятся. Даст ли Hadoop какие-то преимущества? Спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.08.2018, 22:22 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
Процитирую сам себя. Скорее всего BigData начинается не от количества DataRows/Documents/Tuples. А от неких других начальных условий. Например: - данные неструктурированы (грубо говоря нету desc table который даст метаинформацию о том что внутри) - данные стали историческими (или изменяются настолько редко что этим можно прененбречь) - есть возможность применить для анализа шаблон "отображение-свёртка" и есть горизонтальное мастабирование - использование классических реляционных DBMS для анализа этих данных невыгодно по разным причинам ... |
|||
:
Нравится:
Не нравится:
|
|||
07.08.2018, 00:11 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
User2155Всем привет, есть большая база данных. Ну как большая - 5-6 ТБ, при этом она растет в год примерно на 0,5..1 ТБ. Данные хорошо структурированы, т.е. это реляционная база. Никаких изображений, файлов и проч. - только таблицы с числами и буквами. Из них надо делать витрины, а потом отчетность. Вопрос: имеет ли смысл смотреть в сторону Hadoop? У нас сейчас стоит MS SQL Server + дисковая стойка, где данные распределяются между дисками, т.е. хорошо парралелятся. Даст ли Hadoop какие-то преимущества? смысл смотреть имеет. 6 тб мсскл в parquet файлах займут 4 тб, которым не нужны дорогие схд, нет расходов на лицензии за каждое ядрышко. если не пожмотитесь на кластер какая-нибудь cloudera impala поверх parquet почти все тб сможет в памяти держать. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.08.2018, 08:10 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
User2155, начать надо с того, какие у вас сейчас проблемы ... |
|||
:
Нравится:
Не нравится:
|
|||
07.08.2018, 10:27 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
SergSuperначать надо с того, какие у вас сейчас проблемы проблемы у всех примерно одинаковы, современной процессор это 20- 30 ядер, лицензировать его под взрослую субд - безумие. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.08.2018, 10:39 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
H5N16 тб мсскл в parquet файлах займут 4 тбАфигеть какой у вас хрустальный шар. А если топикстрартер уже применил columnstore от MS SQL Server, сколько это будет в parquet файлах? SergSuperначать надо с того, какие у вас сейчас проблемыПоддерживаю. Подозреваю, что топикстартер хочет поучится за счет конторы. Желание понятное и общественно приемлимое. H5N1проблемы у всех примерно одинаковыА давайте сначала послушаем начальника транспортного цеха. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.08.2018, 17:07 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
SERG1257, Да, columnstore я уже поставил. Без него мои витрины просто умрут. Проблемы? Да в общем нет у меня особых проблем, т.к. сервер достаточно мощный, народу там не много. Просто IT прибежал с воплями "Переходите к нам в Hadoop", а я посмотрел видео обзоры и не нашел там чего-то особенного для себя. Если говорить про отчетность, то вообще геморрой будет, т.к. SSRS, SSAS, PowerBI очень хороши. Тупо смотрю на новую технологию и думаю надо оно мне или нет? ... |
|||
:
Нравится:
Не нравится:
|
|||
07.08.2018, 18:31 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
User2155Ну как большая - 5-6 ТБ, при этом она растет в год примерно на 0,5..1 ТБ. Данные хорошо структурированы, т.е. это реляционная база. Никаких изображений, файлов и проч. - только таблицы с числами и буквами.Full backup, видимо тяжеловато делать. Diff/log при таком приросте тоже? Типы данных везде оптимизированы? Чтобы не тратить место на bigint, где smallint хватит. И nvarchar не везде, если бизнес не транснациональный. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.08.2018, 09:21 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
tunknown, full backup как ни странно хорошо сжимает данные, примерно в 4 раза. Recovery model - simple, т.е. никакого diff/log. Но у меня хранилище, а не боевая OLTP, поэтому нормально. Сейчас начинаю склоняться к симбиозу Hadoop & MS SQL. Большие таблицы - на Hadoop, дальше их надо как-то подключить к MS SQL (PolyBase или External tables, но не пробовал) и работать вместе. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.08.2018, 12:13 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
maytonПроцитирую сам себя. Скорее всего BigData начинается не от количества DataRows/Documents/Tuples. А от неких других начальных условий. Например: - данные неструктурированы (грубо говоря нету desc table который даст метаинформацию о том что внутри) - данные стали историческими (или изменяются настолько редко что этим можно прененбречь) - есть возможность применить для анализа шаблон "отображение-свёртка" и есть горизонтальное мастабирование - использование классических реляционных DBMS для анализа этих данных невыгодно по разным причинам 1 - а если структурированы, бигдата не начинается? 2 - Да. Но данных обычно много там, где они генерятся каким-то обурудованием, а не вводятся вручную. как правило такие данные н еизменяемые по своей сути. 3 - дело не в шаблоне. Про "есть горизонтальное мастабирование" - не понял. Горизонтальное мастабирование появлятся с приходом хадупа. 4 - деньги по любому нужно считать. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.08.2018, 16:33 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
User2155Сейчас начинаю склоняться к симбиозу Hadoop & MS SQL. Большие таблицы - на Hadoop, дальше их надо как-то подключить к MS SQL (PolyBase или External tables, но не пробовал) и работать вместе. При обработке данных средствами Hadoop - вам могут потребоваться данные, которых в Hadoop нет. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.08.2018, 17:34 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
halt1 - а если структурированы, бигдата не начинается? Вы спросили банальность. Я могу ответить тоже банальностью. Но зачем это надо? Я не люблю отвечать только да-нет. Мне становится скушно. 3 - дело не в шаблоне. Про "есть горизонтальное мастабирование" - не понял. Горизонтальное мастабирование появлятся с приходом хадупа. Горизоньально масштабирование (как я понимаю) это СПОСОБНОСТЬ системы линейно наращивать свою скорость при линейном добавлении мощностей. Если в вашей системе ЭТО есть - то вы дружите с Hadoop. Но ПРИХОД Hadoop в любую вашу систему вовсе не означает что она смасштабируется. 4 - деньги по любому нужно считать. Непонятно к чему эта фраза. Волга впадает в Каспийское море... Зимой люди топят печки... ... |
|||
:
Нравится:
Не нравится:
|
|||
08.08.2018, 21:16 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
maytonВы спросили банальность. Я могу ответить тоже банальностью. Но зачем это надо? Я не люблю отвечать только да-нет. Я ничего не спрашивал. Это был риторический вопрос, намекающий на то, что неструктурированность данных не является необходимым условием для бигдаты. maytonГоризоньально масштабирование (как я понимаю) это СПОСОБНОСТЬ системы линейно наращивать свою скорость при линейном добавлении мощностей. Если в вашей системе ЭТО есть - то вы дружите с Hadoop. Но ПРИХОД Hadoop в любую вашу систему вовсе не означает что она смасштабируется. Что вы называете "системой" ? Что должно быть способно горизонтально масштабироваться у топикстартера до прихода хадупа? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.08.2018, 08:10 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
halt, вы хотите чтобы я искал определение системы в контексте? Возьмите любое из области информатикм и 99% это будет мое. Мне вообще кажется что вы спорите не для пользы топика а исключительно из желания спорить. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.08.2018, 08:38 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
User2155, До 50-70-100 Тб не стоит переходить, та же MS рекомендует переход при достижении объема 100 Тб. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2018, 15:28 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
КритикUser2155, До 50-70-100 Тб не стоит переходить, та же MS рекомендует переход при достижении объема 100 Тб. бред. дело не в объемах, а в том что мс надо продавать дряхлеющий продукт. у нас уже на 2-3 тб было полно бенефитов от миграции с оракла. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2018, 16:08 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
для начала сорсы ты как в dwh закачиваешь? если репликацией с oltp субд - будет невесело ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2018, 08:26 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
а можно про те самые бенефиты, кроме стоимости лицензий? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.08.2018, 11:11 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
Shtockа можно про те самые бенефиты, кроме стоимости лицензий? ушла прокладка из dba, с которой нужно было биться за каждый гигабайт на сторидже. теперь девелопер запросто делает копию всех данных в свой dev и работает с ними так как считает нужным. удобней разработка, можно по человечески писать тесты и запускать всякие импалы, спарки и мепредюсы локально в докере поскольку ресурсы и диски резиновые многие вещи можно решать много проще. например вместо того что бы воротить тучи логики вычисляющие что там в витрине изменилось, можно тупо на каждый чих перестраивать витрину целиком. не оптимально, но чихать, ресурсы бесплатны и они резиновы. больше стандартных возможностей. читать и писать какие-нибудь сообщения с кафки в риалтаме записывать аггрегации - задачка на часик два и мульен гвайдов. в оракле это был бы суровый проект с тучей неизведанных граблей. и т.д. и т.п. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.08.2018, 13:33 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
Еще через 5 лет поймут что новое - суть забытое старое и всё равно SQL - самый быстрый DSL для написания отчотов. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.08.2018, 23:50 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
mayton, Не через 5, а когда "резиновые диски" кончатся, потому что каждый разраб наворотил на несколько Тб, а потом половина уволилась. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.08.2018, 10:56 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
maytonЕще через 5 лет поймут что новое - суть забытое старое и всё равно SQL - самый быстрый DSL для написания отчотов. ну доработают спарск sql до ansi sql и всего-то Так и сейчас самое лучшее что я видел - это хадуп под сырье а витрины в MPP реляционке - а на ней уже отчеты ... |
|||
:
Нравится:
Не нравится:
|
|||
17.08.2018, 11:09 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
КритикНе через 5, а когда "резиновые диски" кончатся, потому что каждый разраб наворотил на несколько Тб, а потом половина уволилась. во первых диски на то и резиновые, что не кончатся. во вторых дев енвайронмент уволенных сотрудников следует зачищать. но главное - разобраться в вермешелях кода, после того как половина уволилась заметно более сложная задача, чем добавить дисков в кластер. Ivan Durakну доработают спарск sql до ansi sql и всего-то Так и сейчас самое лучшее что я видел - это хадуп под сырье а витрины в MPP реляционке - а на ней уже отчеты импала и всякие куды уже очень близки, что бы отчеты сразу по ним гонять. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.08.2018, 11:41 |
|
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
|
|||
---|---|---|---|
#18+
H5N1КритикНе через 5, а когда "резиновые диски" кончатся, потому что каждый разраб наворотил на несколько Тб, а потом половина уволилась. во первых диски на то и резиновые, что не кончатся. В сферической конторе в вакууме с резиновым бюджетом...ага ... |
|||
:
Нравится:
Не нравится:
|
|||
17.08.2018, 19:41 |
|
|
start [/forum/topic.php?fid=35&msg=39689654&tid=1552213]: |
0ms |
get settings: |
10ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
29ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
71ms |
get tp. blocked users: |
2ms |
others: | 15ms |
total: | 164ms |
0 / 0 |