А зачем вообще нужны MPP Databases?? / OLAP и DWH

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / А зачем вообще нужны MPP Databases??

10 сообщений из 35, страница 2 из 2

все

А зачем вообще нужны MPP Databases??

#40022067

Ибн Хоттаб

Участник

Откуда: Den marsianske sosialistiske sovjetrepublikk

Сообщения: 230

Рейтинг: 0 / 0

George Nordic,

Могу добавить к "службе такси". Вместо города - бурное море, вместо машин - корабли снабжения нефтяных вышек, вместо адресов вышки, вместо пассажиров 4000 наименований грузов, которые могут доставляться, включая наливные/насыпные/контейнеры/негабаритные, каждый из которых может доставляться из порта на вышку, обратно в порт с вышки, или между вышками, и для каждого класса которых у корабля снабжения разная грузоподъемность. Плюс к этому погодные условия, в том числе высота волны у вышки, которая снимается несколькими тысячами буев разбросанными по морю, что само по себе порождает некислый поток данных, по норвежским нормативам корабль не может разгружаться если волны выше 4 метров, тогда корабль занимает позицию у вышки, ждет и жжет топливо, либо может уйти к другой. В базе могут храниться предпосчитанные заготовки маршрутов, из которых собирается реальный в зависимости от текущей задачи и ситуации. К этому можно добавить спотовые цены на аренду кораблей, покупку топлива и расходников. Такого рода системы могут использовать например Статойл в Норвегии и Петробраз в Бразилии, правда когда я по этой теме работал, 6-7-8 лет назад, в продакшне ничего такого еще не было.

И могу добавить к "банку". Инвестиционный банкинг, где терабайты и терабайты трейдов и связанных с ними событий. И да даже для операционного анализа может понадобиться иметь сотни гигабайт доступными постоянно.

Ну и наконец ЕТЛ в общем случае. Например лукапить измерение на 20 миллионов контрагентов для миллионов записей в ТФ в день, приходящих порциями по несколько десятков/сотен тысяч каждые несколько минут, и до следующей порции надо текущую уложить.

...

Рейтинг:

0 / 0

25.11.2020, 13:34

| Ответить | Цитировать | Написать

А зачем вообще нужны MPP Databases??

#40022840

vikkiv

Участник

Откуда: EU

Сообщения: 2 580

Рейтинг: 0 / 0

Начинаю встречать варианты DWH на Data Lake, модель данных плоскими csv файлами Job-ами через U-SQL и всё такое (вперемешку с XML/JSON)..
Кимбал со своей Star Schema (и созвездиями) как-бы тоже прямо так и не пишет в определениях что обязательно должно висеть на RDBMS,
так что вроде как-бы вполне по фэн-шую получается, чисто вопрос требований к балансу производительности/цены..
нужно быстро и интерактивно по большим объёмам - MPP, если какие-то постоянные отчёты
по расписанию - то и такое подойдёт, тем более обслуживать чуть проще получается.

...

Рейтинг:

0 / 0

27.11.2020, 17:15

| Ответить | Цитировать | Написать

А зачем вообще нужны MPP Databases??

#40023012

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

vikkiv,

Что-то мне говорит, что рынок труда специалистов по U-SQL и подобным не стандартным штукам весьма мал. Что создаст трудности как работодателю, так и специалистам.

...

Рейтинг:

0 / 0

28.11.2020, 16:58

| Ответить | Цитировать | Написать

А зачем вообще нужны MPP Databases??

#40023192

Полковник.

Участник

Сообщения: 1 648

Рейтинг: 0 / 0

Критик,

Процесс распилов и откатов должен не останавливаться, отсюда все эти новомодные технологии и смены парадигм, довелось столкнуться в живую смена парадигмы ХД (не удобно, не удовлетворяет бла бла бла) на дата лайк, парадигму меняли те, кто ХД сделал через ж-пу, дата лайк у них думаю получился ни чуть не лучше.
А пока по факту нормальную, простую базу данных для ГИБДД создать не в состоянии, не говоря уж о передаче данных от одной госструктуры в другюю.

...

Рейтинг:

0 / 0

29.11.2020, 18:36

| Ответить | Цитировать | Написать

А зачем вообще нужны MPP Databases??

#40023215

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Полковник.

Процесс распилов и откатов должен не останавливаться, отсюда все эти новомодные технологии и смены парадигм

что-то пенсией и обидой просквозило.

Полковник.

довелось столкнуться в живую смена парадигмы ХД (не удобно, не удовлетворяет бла бла бла) на дата лайк

data lake пришел из опенсоурса и hadoop, того самого hadoop, что суют ради удешевления проектов. пытаться его натягивать на распилы не самая здоровая идея. сдается мне пилить на ораклах и майкрософтах заметно более популярное занятие.

...

Рейтинг:

0 / 0

29.11.2020, 22:54

| Ответить | Цитировать | Написать

А зачем вообще нужны MPP Databases??

#40023228

Vyatich

Участник

Сообщения: 1 296

Рейтинг: 0 / 0

H5N1

hadoop на клаудерах пилится ни чуть не хуже.

...

Рейтинг:

0 / 0

30.11.2020, 01:09

| Ответить | Цитировать | Написать

А зачем вообще нужны MPP Databases??

#40023232

vikkiv

Участник

Откуда: EU

Сообщения: 2 580

Рейтинг: 0 / 0

Критик

vikkiv,
Что-то мне говорит, что рынок труда специалистов по U-SQL и подобным не стандартным штукам весьма мал. Что создаст трудности как работодателю, так и специалистам.

Если вопрос именно по MS то я как-бы согласен с тем что будущее U-SQL (и ADLA) весьма под большим вопросом
(вместе с ADLS Gen1 на Hadoop), т.к. не совместимо с ADLS Gen2 (что в принципе уже другой продукт) и с последней версией стало
легче напрямую работать (парсить/конвертировать файлы) другими инструментами (DataBricks, Python, PS / CloudShell / C# и пр.)

Тот-же SQL Server (и его облачные клоны) довольно давно (кажется появилось в 2016-й версии) вполне даже адаптированны именно
под такой подход (чаще используемый в ETL целях) через External Tables (Data Sources / File Formats) на PolyBase (без всяких MapReduce)
даже не говоря об ещё раньше появившихся Linked Servers или OpenQuery/OpenRowset

Что собственно не меняет самой сути - где и в каком виде хранятся данные (вплоть до SchemaOnRead): в RDBMS/MPP или на диске..
По скоростям конечно далеко до MPP несмотря на кластеры (Compute/Worker ноды) со стороны обработки файлов (партиционирование и пр.)
но для моделирования и не быстрых вариантов DWH медленной отчётности подешевле с файловой системы - вполне годится.

Там так замутили чисто из-за того что DL помойка уже была общая для всего энтерпрайса
(куда бросали всё, отовсюду и в разных форматах, структурированное и нет),
с оркестрацией через ADF, и решили не заморачиваться лишними расходами типа Synapse плюс разработка.
(MPP который вроде-бы как всё равно архитектурно работает на ADLS Gen2,
к тому-же теперь включает интегрированный Apache Spark {Scala} тоже на ADLS Gen2
{опять-же вспоминается DataBricks со своей встроенной / native поддержкой SQL
да на их-то масштабируемых кластерах фактически опять получается тот-же MPP})

Synapse есть - но он для других более критичных целей аналитики
я так понял что по их оценке неоправданно было из финансовых соображений многие проекты на MPP/DWH переносить
т.е. в их случае часть Power BI отчётности (в пределах нескольких датамартов) приемлемо работала и с DL без проблем
(данные из новых заброшенных в контейнер файлов появлялись на фронт-енде автоматически)

Даже облачный SSAS (AAS табличный) работает с DataLake напрямую (нет необходимости прокачивать данные по всей длинной цепи до DWH)

...

Рейтинг:

0 / 0

30.11.2020, 01:46

| Ответить | Цитировать | Написать

А зачем вообще нужны MPP Databases??

#40023264

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

vikkiv

часть Power BI отчётности (в пределах нескольких датамартов) приемлемо работала и с DL без проблем
(данные из новых заброшенных в контейнер файлов появлялись на фронт-енде автоматически)

месяц-два назад пробовал поковырять - там все в духе майкрософт. powerbi умеет читать с ADLS Gen2 только в режиме импорта. соответственно рефреш на про лицензиях не более 8 раз в сутки + 10 гб лимит на табличку. при этом ни parquet, ни databricks дельту, ни orc читать не умеет. умеет только совершенно примитивные форматы типа json, xl, csv.
с такими ограничениями я бы постремался что-то серьезное строить.

vikkiv

Даже облачный SSAS (AAS табличный) работает с DataLake напрямую (нет необходимости прокачивать данные по всей длинной цепи до DWH)

SSAS умеет parquet/databricks delta читать ?

...

Рейтинг:

0 / 0

30.11.2020, 10:26

| Ответить | Цитировать | Написать

А зачем вообще нужны MPP Databases??

#40023515

vikkiv

Участник

Откуда: EU

Сообщения: 2 580

Рейтинг: 0 / 0

H5N1

при этом ни parquet, ни databricks дельту, ни orc читать не умеет.

По поводу DataBricks (и Power BI) - eсли через Hive сделал то вот здесь на 9й минуте говорят (и показывают) что видно.

YouTube Video

...

Рейтинг:

0 / 0

01.12.2020, 05:23

| Ответить | Цитировать | Написать

А зачем вообще нужны MPP Databases??

#40023544

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

vikkiv

По поводу DataBricks (и Power BI) - eсли через Hive сделал то вот здесь на 9й минуте говорят (и показывают) что видно.

датабрикс кластер это совсем другая история. там то понятно, поднимают хадуп, не из одной ноды, включают счетчик для богатых и поехали. разговор вроде был вроде о "медленной отчётности подешевле с файловой системы"

vikkiv

но для моделирования и не быстрых вариантов DWH медленной отчётности подешевле с файловой системы - вполне годится.

Там так замутили чисто из-за того что DL помойка уже была общая для всего энтерпрайса
(куда бросали всё, отовсюду и в разных форматах, структурированное и нет)

я решил что DL у вас файлики на ADLS.

vikkiv

Если именно чтение (с распаковкой и парсингом) из Data Lake напрямую в Power BI
то как-бы можно найти тысячи форматов которые не поддерживаются
тот-же .bat не раскрывает, .exe не выполняет, причин много,
некоторые форматы это ещё и вопрос лицензии третих лиц (прежде чем их в библиотеки встраивать)

так я и говорю, все сделано в стиле майкрософт. в результате самый эффективный из доступных формат для powerbi- сsv. кто-то в серьез будет рассматривать постройку датамартов для отчетов в csv ? не будет. а ничего интересней powerbi не читает.
хотя надо признать, что что-то серьезней csv для powerbi и не имеет смысла, все равно режим только импорта. скорость чтения при ограничениях импорта powerbi и не важна.

vikkiv

Для Data Lake - ну так какой Direct Query, они-ведь файлы а не база данных

именно, получается задешево отчетность на файликах в ADLS не построить, надо поднимать дорогой кластер - или hdinsight или databriks.
... и внимательно считать, точно ли дорогой кластер, который придется держать постоянно включенным, будет органично сочитаться с желанием построить дешевый дата лейк.
по мне так это убивает единственное существенно преимущество - дешевизну.

vikkiv

10Gb на табличку (вроде как для Pro <= 1Gb)?
У нас для конечного пользователя такие вещи массово непопулярны по совсем другим причинам ибо не фэн-шуй.
8 раз за день? Так и для Premium ограничение есть, сколько надо?

да, точно. 10 гб это премиум, у про вовсе 1 гб.

vikkiv

(не знаю настолько досконально PBI облачную платформу но можно наверное и другими механизмами?)
хотя да, на Pro имеет смысл т.к. для Premium - Dedicated Compute Capacity, что с ним делаешь - твоё дело

можно рестом делать рефреш, но там те же ограничения.
It is also important to call out that the shared-capacity limitation for daily refreshes applies to both scheduled refreshes and API refreshes combined.

у премиум вроде 48 рефрешей, с этим уже можно жить.

...

Рейтинг:

0 / 0

01.12.2020, 10:26

| Ответить | Цитировать | Написать

10 сообщений из 35, страница 2 из 2

все

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / А зачем вообще нужны MPP Databases??

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=49&gotonew=1&tid=1857225]:	0ms
get settings:	9ms
get forum list:	13ms
check forum access:	4ms
check topic access:	4ms
track hit:	71ms
get topic data:	11ms
get first new msg:	7ms
get forum data:	2ms
get page messages:	55ms
get tp. blocked users:	2ms
others:	12ms

total:	190ms