powered by simpleCommunicator - 2.0.48     © 2025 Programmizd 02
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
25 сообщений из 27, страница 1 из 2
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39683986
User2155
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Всем привет,
есть большая база данных. Ну как большая - 5-6 ТБ, при этом она растет в год примерно на 0,5..1 ТБ. Данные хорошо структурированы, т.е. это реляционная база. Никаких изображений, файлов и проч. - только таблицы с числами и буквами. Из них надо делать витрины, а потом отчетность.

Вопрос:
имеет ли смысл смотреть в сторону Hadoop?
У нас сейчас стоит MS SQL Server + дисковая стойка, где данные распределяются между дисками, т.е. хорошо парралелятся. Даст ли Hadoop какие-то преимущества?

Спасибо.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39684005
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Процитирую сам себя.

Скорее всего BigData начинается не от количества DataRows/Documents/Tuples.

А от неких других начальных условий. Например:
- данные неструктурированы (грубо говоря нету desc table который даст метаинформацию о том что внутри)
- данные стали историческими (или изменяются настолько редко что этим можно прененбречь)
- есть возможность применить для анализа шаблон "отображение-свёртка" и есть горизонтальное мастабирование
- использование классических реляционных DBMS для анализа этих данных невыгодно по разным причинам
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39684042
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
User2155Всем привет,
есть большая база данных. Ну как большая - 5-6 ТБ, при этом она растет в год примерно на 0,5..1 ТБ. Данные хорошо структурированы, т.е. это реляционная база. Никаких изображений, файлов и проч. - только таблицы с числами и буквами. Из них надо делать витрины, а потом отчетность.

Вопрос:
имеет ли смысл смотреть в сторону Hadoop?
У нас сейчас стоит MS SQL Server + дисковая стойка, где данные распределяются между дисками, т.е. хорошо парралелятся. Даст ли Hadoop какие-то преимущества?

смысл смотреть имеет. 6 тб мсскл в parquet файлах займут 4 тб, которым не нужны дорогие схд, нет расходов на лицензии за каждое ядрышко. если не пожмотитесь на кластер какая-нибудь cloudera impala поверх parquet почти все тб сможет в памяти держать.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39684089
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
User2155,

начать надо с того, какие у вас сейчас проблемы
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39684100
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuperначать надо с того, какие у вас сейчас проблемы
проблемы у всех примерно одинаковы, современной процессор это 20- 30 ядер, лицензировать его под взрослую субд - безумие.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39684391
SERG1257
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N16 тб мсскл в parquet файлах займут 4 тбАфигеть какой у вас хрустальный шар. А если топикстрартер уже применил columnstore от MS SQL Server, сколько это будет в parquet файлах?
SergSuperначать надо с того, какие у вас сейчас проблемыПоддерживаю.
Подозреваю, что топикстартер хочет поучится за счет конторы. Желание понятное и общественно приемлимое.
H5N1проблемы у всех примерно одинаковыА давайте сначала послушаем начальника транспортного цеха.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39684445
User2155
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SERG1257,

Да, columnstore я уже поставил. Без него мои витрины просто умрут.
Проблемы? Да в общем нет у меня особых проблем, т.к. сервер достаточно мощный, народу там не много.

Просто IT прибежал с воплями "Переходите к нам в Hadoop", а я посмотрел видео обзоры и не нашел там чего-то особенного для себя. Если говорить про отчетность, то вообще геморрой будет, т.к. SSRS, SSAS, PowerBI очень хороши.

Тупо смотрю на новую технологию и думаю надо оно мне или нет?
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39684606
tunknown
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
User2155Ну как большая - 5-6 ТБ, при этом она растет в год примерно на 0,5..1 ТБ. Данные хорошо структурированы, т.е. это реляционная база. Никаких изображений, файлов и проч. - только таблицы с числами и буквами.Full backup, видимо тяжеловато делать. Diff/log при таком приросте тоже?
Типы данных везде оптимизированы? Чтобы не тратить место на bigint, где smallint хватит. И nvarchar не везде, если бизнес не транснациональный.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39684740
User2155
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
tunknown,

full backup как ни странно хорошо сжимает данные, примерно в 4 раза.
Recovery model - simple, т.е. никакого diff/log. Но у меня хранилище, а не боевая OLTP, поэтому нормально.

Сейчас начинаю склоняться к симбиозу Hadoop & MS SQL. Большие таблицы - на Hadoop, дальше их надо как-то подключить к MS SQL (PolyBase или External tables, но не пробовал) и работать вместе.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39684929
halt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonПроцитирую сам себя.

Скорее всего BigData начинается не от количества DataRows/Documents/Tuples.

А от неких других начальных условий. Например:
- данные неструктурированы (грубо говоря нету desc table который даст метаинформацию о том что внутри)
- данные стали историческими (или изменяются настолько редко что этим можно прененбречь)
- есть возможность применить для анализа шаблон "отображение-свёртка" и есть горизонтальное мастабирование
- использование классических реляционных DBMS для анализа этих данных невыгодно по разным причинам

1 - а если структурированы, бигдата не начинается?
2 - Да. Но данных обычно много там, где они генерятся каким-то обурудованием, а не вводятся вручную. как правило такие данные н еизменяемые по своей сути.
3 - дело не в шаблоне. Про "есть горизонтальное мастабирование" - не понял. Горизонтальное мастабирование появлятся с приходом хадупа.
4 - деньги по любому нужно считать.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39684968
halt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
User2155Сейчас начинаю склоняться к симбиозу Hadoop & MS SQL. Большие таблицы - на Hadoop, дальше их надо как-то подключить к MS SQL (PolyBase или External tables, но не пробовал) и работать вместе.
При обработке данных средствами Hadoop - вам могут потребоваться данные, которых в Hadoop нет.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39685066
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
halt1 - а если структурированы, бигдата не начинается?

Вы спросили банальность. Я могу ответить тоже банальностью.
Но зачем это надо? Я не люблю отвечать только да-нет.
Мне становится скушно.

3 - дело не в шаблоне. Про "есть горизонтальное мастабирование" - не понял. Горизонтальное мастабирование появлятся с приходом хадупа.

Горизоньально масштабирование (как я понимаю) это СПОСОБНОСТЬ системы
линейно наращивать свою скорость при линейном добавлении мощностей.

Если в вашей системе ЭТО есть - то вы дружите с Hadoop. Но ПРИХОД Hadoop
в любую вашу систему вовсе не означает что она смасштабируется.

4 - деньги по любому нужно считать.
Непонятно к чему эта фраза. Волга впадает в Каспийское море... Зимой люди топят печки...
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39685175
halt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonВы спросили банальность. Я могу ответить тоже банальностью.
Но зачем это надо? Я не люблю отвечать только да-нет.

Я ничего не спрашивал. Это был риторический вопрос, намекающий на то, что неструктурированность данных не является необходимым условием для бигдаты.
maytonГоризоньально масштабирование (как я понимаю) это СПОСОБНОСТЬ системы
линейно наращивать свою скорость при линейном добавлении мощностей.
Если в вашей системе ЭТО есть - то вы дружите с Hadoop. Но ПРИХОД Hadoop
в любую вашу систему вовсе не означает что она смасштабируется.

Что вы называете "системой" ?
Что должно быть способно горизонтально масштабироваться у топикстартера до прихода хадупа?
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39685190
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
halt, вы хотите чтобы я искал определение системы в контексте?

Возьмите любое из области информатикм и 99% это будет мое.

Мне вообще кажется что вы спорите не для пользы топика а исключительно из желания спорить.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39686957
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
User2155,

До 50-70-100 Тб не стоит переходить, та же MS рекомендует переход при достижении объема 100 Тб.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39686977
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
КритикUser2155,

До 50-70-100 Тб не стоит переходить, та же MS рекомендует переход при достижении объема 100 Тб.
бред. дело не в объемах, а в том что мс надо продавать дряхлеющий продукт.
у нас уже на 2-3 тб было полно бенефитов от миграции с оракла.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39687224
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
для начала сорсы ты как в dwh закачиваешь?
если репликацией с oltp субд - будет невесело
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39688619
Фотография Shtock
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
а можно про те самые бенефиты, кроме стоимости лицензий?
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39688813
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Shtockа можно про те самые бенефиты, кроме стоимости лицензий?
ушла прокладка из dba, с которой нужно было биться за каждый гигабайт на сторидже. теперь девелопер запросто делает копию всех данных в свой dev и работает с ними так как считает нужным.
удобней разработка, можно по человечески писать тесты и запускать всякие импалы, спарки и мепредюсы локально в докере
поскольку ресурсы и диски резиновые многие вещи можно решать много проще. например вместо того что бы воротить тучи логики вычисляющие что там в витрине изменилось, можно тупо на каждый чих перестраивать витрину целиком. не оптимально, но чихать, ресурсы бесплатны и они резиновы.
больше стандартных возможностей. читать и писать какие-нибудь сообщения с кафки в риалтаме записывать аггрегации - задачка на часик два и мульен гвайдов. в оракле это был бы суровый проект с тучей неизведанных граблей.
и т.д. и т.п.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39689174
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Еще через 5 лет поймут что новое - суть забытое старое и всё равно SQL - самый быстрый DSL
для написания отчотов.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39689330
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

Не через 5, а когда "резиновые диски" кончатся, потому что каждый разраб наворотил на несколько Тб, а потом половина уволилась.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39689339
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonЕще через 5 лет поймут что новое - суть забытое старое и всё равно SQL - самый быстрый DSL
для написания отчотов.
ну доработают спарск sql до ansi sql и всего-то

Так и сейчас самое лучшее что я видел - это хадуп под сырье а витрины в MPP реляционке - а на ней уже отчеты
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39689371
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
КритикНе через 5, а когда "резиновые диски" кончатся, потому что каждый разраб наворотил на несколько Тб, а потом половина уволилась.
во первых диски на то и резиновые, что не кончатся. во вторых дев енвайронмент уволенных сотрудников следует зачищать. но главное - разобраться в вермешелях кода, после того как половина уволилась заметно более сложная задача, чем добавить дисков в кластер.

Ivan Durakну доработают спарск sql до ansi sql и всего-то

Так и сейчас самое лучшее что я видел - это хадуп под сырье а витрины в MPP реляционке - а на ней уже отчеты
импала и всякие куды уже очень близки, что бы отчеты сразу по ним гонять.
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39689654
Фотография Megabyte
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1КритикНе через 5, а когда "резиновые диски" кончатся, потому что каждый разраб наворотил на несколько Тб, а потом половина уволилась.
во первых диски на то и резиновые, что не кончатся.
В сферической конторе в вакууме с резиновым бюджетом...ага
...
Рейтинг: 0 / 0
СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
    #39689684
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MegabyteВ сферической конторе в вакууме с резиновым бюджетом...ага
10 тб диск строит 420 евро. один диск уже в двое больше чем у товарища всех данных.
...
Рейтинг: 0 / 0
25 сообщений из 27, страница 1 из 2
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД для большого объема реляционных данных (Hadoop vs MS SQL / Oracle)
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]