powered by simpleCommunicator - 2.0.44     © 2025 Programmizd 02
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / А зачем вообще нужны MPP Databases??
35 сообщений из 35, показаны все 2 страниц
А зачем вообще нужны MPP Databases??
    #40001990
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В продолжение темы про МРР , но с точки зрения практического применения. Да, подобные технологии есть, но кому и зачем они нужны? Зачем держать "горячие" данные с возможностью быстрой выборки? Более того, зачастую необходимо еще и поддерживать их в актуальном состоянии, что требует постоянной подкачки актуальных данных (CDC, а это тоже недешевые технологии).

Имхо, оптимальное применение подобных систем - это многофакторная оптимизация с целью формирования оптимального предложения Заказчику:
Что приходит в голову:

  • Ритейл. 1. Сформировать корзину, +Next Best Offer / "вам понравится / с этим товаром берут", когда мы предлагаем ему товары, которые заинтересуют, основываясь не только на бывшем опыте (не предлагать ему молоко, если он два дня назад раз купил 2 упаковки по акции, но не забыть предложить ему молоко в следующий раз), но и на основании текущего заказа - анализ поведенческой модели. 2. Помощь в поиске товаров. 3. Помощь в подборе аналогов. 4. Оптимизировать логистику, предлагая товары из ближайшего магазина / склада / РЦ. 5. Нагруженность касс, кол-во работающих касс. 6. Для анализа Лояльности / Оттока, думаю, в МРР нет необходимости.
  • Банки. 1. Личный кабинет. 2. Онлайн формирование персонализированных предложений (Next Best Offer). 3. Онлайн-скорринг. 4. Кредитный конвейер. 5. Система лояльности, выявление склонных к оттоку клиентов 6. Решение части фродовых задач или тюнинг фрод-параметров.
  • Телеком. 1. Личный кабинет. 2. Онлайн формирование персонализированных предложений (Next Best Offer). Но для анализа CDR направления звонков / продолжительности звонка / трафик, сайты - в МРР нет необходимости. И для оценки качества связи, стабильности линий, продолжительности звонка / кол-ву перезвонов используется потоковая аналитика, и тут тоже МРР ни к чему.
  • Служба такси: 1. Выслать предложение таксистам недалеко от места вызова, или которые скоро закончат поездку в данном районе. 2. Предложить варианты клиенту. 3. Желательно, более комфортные с его точки зрения (исключить взаимный "черный список", при прочих равных - убрать машины с громкой музыкой, если до этого Заказчик поставил "минус" водителя за громкую музыку и т.п.). 4. Рассчитать стоимость поездки и комиссионные водителю. 5. Оптимизировать логистику и распределение автопарка, дать задание водителю ждать в районе где ожидается массовый спрос.
  • Сайт знакомств: Подобрать пару, основываясь на профиле Клиента, его предпочтениях, совпадающих параметров / интересов, предыдущем опыте / рейтинге, и по текущему поведению: если "Минусует" кандидатов с собаками на фото или людей с татуировками, показывать только любителей кошек и без тату.
  • Социальные сети. Формировать ленту, основываясь на реакции Клиента: у него может быть разное настроение, и если вчера он игнорировал новости туризма, то сегодня его это может интересовать, и необходимо сформировать ленту / добавить рекламу по его интересам.
  • Игры. Кто сколько в игре провел, Каких достижений добился, Сколько потратил / задонатил, На какие рекламные ссылки перешел, На каком уровне застрял (с целью упростить уровень и сделать более простым и удобные игровой процесс, увеличивая время, проведенное в игре). Снижение спроса / отказ оборудования - это уже RealTime аналитика, есть специализированные продукты для этого.

  • С Уважением,
    Георгий
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002139
    H5N1
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic,

    имхо mpp в связке с data lake достаточно популярны. у всяких аля hadoop и data lake систем есть типа SQL engine типа hive, impala и прочие, но они нифига не годятся под интерактивную отчетность. потому data lake строит какие-то витрины и закидывает в mpp базу, которая уже не столь быстро сдохнет под запросами от отчетной системы.
    у нас hadoop + vertica + sap bo юзают, bo долбит реалтайм запросами именно vertica. еще есть qlick sense, но я понял, что у наших не получилось его приготовить. не то дорого по лицензиям вышло, не то сложности перекачивать тучи данных в его хитрый формат.

    я еще для себя смотрел power bi + azure data lake gen2 - там совсем шляпа. power bi ничерта кроме txt, xml, json с adls считать не может и PRO редакция ограничивает 8 раз рефреш датасоурса. т.е. и тут намек что устраивая data lake на adsl, для отчетов надо будет в mpp mssql засовывать
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002143
    Гулин Федор
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    H5N1
    George Nordic,

    я еще для себя смотрел power bi + azure data lake gen2 - там совсем шляпа. power bi ничерта кроме txt, xml, json с adls считать не может и PRO редакция ограничивает 8 раз рефреш датасоурса . т.е. и тут намек что устраивая data lake на adsl, для отчетов надо будет в mpp mssql засовывать


    есть способы через api обойти это - чтобы не подымать версию powerbi
    сам не делал - люди рядом - примеры в инете есть.
    по моему у нас была самая простейшая версия powerbi
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002145
    Полковник.
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic,

    Чистый mpp - это распределение нагрузки, задач, частей запросов по узлам. Терадата, например, широко используется в больших аналитических ХД. Oracle, когда понял, что вот вот его база данных встанет придумал экзадату, слышал что ХД ЦБ лепят на нем.
    И скорее всего тут основное требование не скорость, а об'ем обрабатываемых данных в одном аналитическом запросе.
    Пихать это везде на случай "а вдруг пригодится" очень дорого.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002148
    H5N1
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Гулин Федор

    есть способы через api обойти это - чтобы не подымать версию powerbi
    сам не делал - люди рядом - примеры в инете есть.
    по моему у нас была самая простейшая версия powerbi

    да, видел подобную статью, но в доках указан лимит 8 и для него:
    In Shared capacities this call is limited to eight times per day (including refreshes executed via Scheduled Refresh)
    https://docs.microsoft.com/en-us/rest/api/power-bi/datasets/refreshdataset

    если люди рядом, можете уточнить. речь об этом вызове?
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002225
    Фотография George Nordic
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    H5N1
    имхо mpp в связке с data lake достаточно популярны.
    Да, есть такое подозрение. Но, опять, непонятно, для каких именно задач? Для указанных или что-то еще?
    H5N1
    еще есть qlick sense, но я понял, что у наших не получилось его приготовить.
    А QS это и есть ETL+MPP+Визуалка в одном флаконе, если уже есть Exasol/Vertika/GP etc то как бы масло масляное получается. Но могу попросить наших инженеров посмотреть, что там да как, пусть помогут.

    С Уважением,
    Георгий
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002302
    Бумбараш
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic
    А QS это и есть ETL+MPP+Визуалка в одном флаконе, если уже есть Exasol/Vertika/GP etc то как бы масло масляное получается. Но могу попросить наших инженеров посмотреть, что там да как, пусть помогут.

    загрузите в QS терабайт 50-100 данных
    расскажите, как успехи
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002413
    Фотография George Nordic
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Бумбараш
    загрузите в QS терабайт 50-100 данных.расскажите, как успехи
    QS - это BI, а не HDS. Какие оперативные выводы Вы собираетесь делать по 100 ТБ данных, можно полюбопытствовать?

    Кстати, об этом и вопрос - а зачем вообще в MPP хранить "50-100 ТБ" данных? Ради прикола? Чем хранилище для этого не подходит? Что там такого надо на таком объеме, чтоб вот прямо все данные так срочно нужны?

    История с DL -> ADWH или ODS на МРР <-> гляделка, которая МРР терзает, ясна и понятна. Но что грузят в МРР, какие задачи при этом решают, кроме вышеуказанных? Есть ответы?

    С Уважением,
    Георгий
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002489
    Alex.C
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Гость
    George Nordic,

    Если надо сджойнить за 3 года продажи по дням с остатками на складе по сотням торговых точек и сотням тысяч артикулов - MPP с таблицами с распределением по [дата, магазин, артикул] очень кстати (хотя и не рекомендуется пихать много полей в ключ распределения). Ну это так, пример сходу.
    Ну и Qlik это совсем точно не MPP, его ценность как хранилища вообще сомнительна, на мой взгляд - аналитики уже давно могут и любят в SQL, лазить по .qvd только одним доступным для этого инструментом им будет неинтересно.
    Ассоциативная модель ок, для загрузки и эксплоринга относительно небольших витрин конечно же удобно, дашбордов тоже настроить можно (но с этим и у Tableau всё в порядке), но завязываться на .qvd-хранилище в долгосрочной перспективе рискованно, а грузить витрины по 10+ Гб в .qvw для анализа - неповоротливо.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002499
    Бумбараш
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic


    Кстати, об этом и вопрос - а зачем вообще в MPP хранить "50-100 ТБ" данных? Ради прикола? Чем хранилище для этого не подходит?

    MPP это и есть хранилище. В нём и хранят..
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002500
    Бумбараш
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic
    QS - это BI, а не HDS. Какие оперативные выводы Вы собираетесь делать по 100 ТБ данных, можно полюбопытствовать?


    Данные нужны, как и в любом аналитическом хранилище, для аналитики..
    Надеюсь, не сделал тут для вас каких-то неожиданных открытий..
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002515
    Фотография George Nordic
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Alex.C
    но завязываться на .qvd-хранилище в долгосрочной перспективе рискованно, а грузить витрины по 10+ Гб в .qvw для анализа - неповоротливо.
    Абсолютно верно.
    Пример продажи vc остатки ок: на МРР отработает быстрее. С другой стороны, ну, будет на DHW ночь крутиться, ничего страшного...

    Бумбараш
    Данные нужны, как и в любом аналитическом хранилище, для аналитики..
    Надеюсь, не сделал тут для вас каких-то неожиданных открытий..
    Аналитики ЧЕГО??

    Просто хранить а МРР - весьма недешевое удовольствие. Поэтому хранить там желательно данные, анализ которых принесет бизнесу существенную выгоду по сравнению с затратами на их хранение. А тут оказывается, что народ DHW строит, а для решения каких конкретно задач - не задумывается. Ну, то есть для регуляторной отчетности МРР вряд ли нужна.

    Весьма странно.

    С Уважением,
    Георгий.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002530
    H5N1
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic
    Да, есть такое подозрение. Но, опять, непонятно, для каких именно задач? Для указанных или что-то еще?


    ну у нас в data lake наверно 5-7 ТБ осмысленных корпоративных финансовых данных с кор систем, црм, бухгалтерий. восновном это реляционные какие были региональных оракловых dwh. а вот в вертике чуть более 1ТБ включая dev и test среды. т.е. в mpp у нас не полноценное хранилище, а лишь некоторые витрины под отчеты.
    продвинутый анализ и продвинутые пользователи в mpp базу и не ходят, у продвинутых все что надо в хадупе - hive, impala, R.

    George Nordic
    А QS это и есть ETL+MPP+Визуалка в одном флаконе, если уже есть Exasol/Vertika/GP etc то как бы масло масляное получается. Но могу попросить наших инженеров посмотреть, что там да как, пусть помогут.

    не, BI не наша зона, странно бы выглядело идти им помогать.
    кажется вспомнил еще одну причину крена в сторону SAP BO, в BO буд-то бы проще self bi делать. т.е они готовят модели, а неподготовленные пользователи сами накидывают себе колонки, рисуют отчет. с qlik sense как я понял у них так не получается и каждое изменение требует время от BI команды.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40002603
    Бумбараш
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic
    Аналитики ЧЕГО??

    Аналитики ДАННЫХ. В аналитическом хранилище данных анализируют данные!
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40003806
    Фотография George Nordic
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Бумбараш
    Аналитики ДАННЫХ. В аналитическом хранилище данных анализируют данные!
    Дополню, "И готовят отчеты!"

    Бумбараш, вопрос-то не в этом. Вопрос в том, какие аналитические задачи, помимо указанных, они решают? Причем такие, что вот прям необходимо огромные массивы данных получать "на лету", что бы МРР под этим стояла. Буду благодарен за пример таких задач.

    С Уважением,
    Георгий
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40003846
    Полковник.
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic,
    "На лету" это вы от себя добавили. Зачем "на лету"? Я бы сказал за приемлемое время, вместо нескольких суток - за пару часов такой об'ем данных сейчас не сложно найти. КХД Магнита несколько лет назад было на Терадате, это самая настоящая MPP.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40003865
    Фотография Критик
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic,

    интернет-реклама же
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40003891
    Бумбараш
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic
    Бумбараш
    Аналитики ДАННЫХ. В аналитическом хранилище данных анализируют данные!
    Дополню, "И готовят отчеты!"

    Бумбараш, вопрос-то не в этом. Вопрос в том, какие аналитические задачи, помимо указанных, они решают? Причем такие, что вот прям необходимо огромные массивы данных получать "на лету", что бы МРР под этим стояла. Буду благодарен за пример таких задач.

    С Уважением,
    Георгий

    ну первичная аналитика любого вопроса
    когда аналитик заходит и не знает точно, что ему надо и что в конце получиться
    он сидит и запускает неделю кучу рандомных ад-хок запросов. Какие данные ему нужны он заранее не знает, ищет какие-то связи и зависимости между существующими. Ему могут понадобиться данные за текущий год. За предыдущий. Или за три года назад.
    это и есть аналитика

    заходим в статью дата варехаус
    https://en.wikipedia.org/wiki/Data_warehouse
    In computing, a data warehouse (DW or DWH), also known as an enterprise data warehouse (EDW), is a system used for reporting and data analysis
    тыкаем в ссылку data analysis
    https://en.wikipedia.org/wiki/Data_analysis
    и там написано много буков. Каждая из которых подходит для ответа на ваш вопрос.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40003894
    Бумбараш
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Ну и собственно вы в первом посте сами написали много задач про "на лету". Чего еще надо.

    Какой-то регуляторный репортинг да, можно делать по одной системе без хранилища.
    Но когда уже есть хранилище для других задач, то принято все результаты по данным получать из "одной дыры", чтобы они были одинаковыми. Поэтому репортинг переносят туда. Ну и его там обогатить проще из других систем, если надо будет.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40003928
    Фотография George Nordic
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Критик
    интернет-реклама же
    Точно!
    Бумбараш
    Ну и собственно вы в первом посте сами написали много задач про "на лету". Чего еще надо.
    Ну, думаю, может кто чего еще вспомнит или дополнит. Ad-hoc - это вообще отдельная и большая история, как раз к DataLiteracy ключик.
    Бумбараш
    Но когда уже есть хранилище для других задач, то принято все результаты по данным получать из "одной дыры", чтобы они были одинаковыми. Поэтому репортинг переносят туда. Ну и его там обогатить проще из других систем, если надо будет.
    Вот! Я к чему клоню, если нужны оперативные и актуальные данные, надо же как-то их в MPP затаскивать? Можно ETL, и можно и Change Data Capture - ну чтоб совсем свежак был. Значит, потенциальных рынок для таких систем есть. И там не только GoldenGate и так любимая Вами Informatica [PE CDC]

    С Уважением,
    Георгий
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40003962
    .Евгений
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic
    и можно и Change Data Capture - ну чтоб совсем свежак был.

    Чуть в сторону: самый лучший свежак получается из интеграционной шины. Пусть меньше максимальная скорость передачи, зато приходят вменяемые данные, а не потроха источника.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40003965
    Фотография Критик
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    .Евгений,

    Довольно спорно, т.к. "потроха источника" можно оформить в ODS и отдать еще кому-нибудь, а не только в DWH
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40004049
    .Евгений
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Критик
    .Евгений,

    Довольно спорно, т.к. "потроха источника" можно оформить в ODS и отдать еще кому-нибудь, а не только в DWH

    Мне кажется логичным, когда с потрохами разбирается их непосредственный обладатель, на месте преобразовывая их во что-то более близкое бизнесу. Мне уже не нужно изучать смежную систему, строить ETL для каждой таблицы источника. Зато значительная часть изменений источника либо вовсе не затрагивает ETL, либо затрагивает в минимальной степени (например, прочитать новый тег сообщения по сделке вместо загрузки десятка новых таблиц и анализа использования десятка старых).
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40005580
    Sintetik
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic
    Бумбараш
    Аналитики ДАННЫХ. В аналитическом хранилище данных анализируют данные!
    Дополню, "И готовят отчеты!"

    Бумбараш, вопрос-то не в этом. Вопрос в том, какие аналитические задачи, помимо указанных, они решают? Причем такие, что вот прям необходимо огромные массивы данных получать "на лету", что бы МРР под этим стояла. Буду благодарен за пример таких задач.

    С Уважением,
    Георгий


    аналитика авиабилетов
    например выборка aviasales за 1 день(далеко не по всем направлениям) это архив 20 гиг, разворачивается в 200 гиг, загрузка каждый день, данные за 3 месяца около 200 миллиардов строк, это только один источник, источники друг с другом не связаны, их надо связывать чтобы получить обогащенные данные. Например джойн двух табличек на 200 ярдов и на 90 ярдов Netezza прожевала за 4 часа. Пример конечно тупой, в реальном флоу таких нет, но дает представление о возможностях.

    В телекоме Vertica
    В телекоме greenplum разный онлайн анализ например переключения каналов ТВприставок
    В ПФР Netezza, актуарные расчеты, для сотен миллионов пенсионных счетов
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40018691
    Фотография George Nordic
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Еще в тему: IDC выпустило исследование по потоковой аналитике .

    С Уважением,
    Георгий
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40022067
    Ибн Хоттаб
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    George Nordic,

    Могу добавить к "службе такси". Вместо города - бурное море, вместо машин - корабли снабжения нефтяных вышек, вместо адресов вышки, вместо пассажиров 4000 наименований грузов, которые могут доставляться, включая наливные/насыпные/контейнеры/негабаритные, каждый из которых может доставляться из порта на вышку, обратно в порт с вышки, или между вышками, и для каждого класса которых у корабля снабжения разная грузоподъемность. Плюс к этому погодные условия, в том числе высота волны у вышки, которая снимается несколькими тысячами буев разбросанными по морю, что само по себе порождает некислый поток данных, по норвежским нормативам корабль не может разгружаться если волны выше 4 метров, тогда корабль занимает позицию у вышки, ждет и жжет топливо, либо может уйти к другой. В базе могут храниться предпосчитанные заготовки маршрутов, из которых собирается реальный в зависимости от текущей задачи и ситуации. К этому можно добавить спотовые цены на аренду кораблей, покупку топлива и расходников. Такого рода системы могут использовать например Статойл в Норвегии и Петробраз в Бразилии, правда когда я по этой теме работал, 6-7-8 лет назад, в продакшне ничего такого еще не было.

    И могу добавить к "банку". Инвестиционный банкинг, где терабайты и терабайты трейдов и связанных с ними событий. И да даже для операционного анализа может понадобиться иметь сотни гигабайт доступными постоянно.

    Ну и наконец ЕТЛ в общем случае. Например лукапить измерение на 20 миллионов контрагентов для миллионов записей в ТФ в день, приходящих порциями по несколько десятков/сотен тысяч каждые несколько минут, и до следующей порции надо текущую уложить.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40022840
    Фотография vikkiv
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Начинаю встречать варианты DWH на Data Lake, модель данных плоскими csv файлами Job-ами через U-SQL и всё такое (вперемешку с XML/JSON)..
    Кимбал со своей Star Schema (и созвездиями) как-бы тоже прямо так и не пишет в определениях что обязательно должно висеть на RDBMS,
    так что вроде как-бы вполне по фэн-шую получается, чисто вопрос требований к балансу производительности/цены..
    нужно быстро и интерактивно по большим объёмам - MPP, если какие-то постоянные отчёты
    по расписанию - то и такое подойдёт, тем более обслуживать чуть проще получается.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40023012
    Фотография Критик
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    vikkiv,

    Что-то мне говорит, что рынок труда специалистов по U-SQL и подобным не стандартным штукам весьма мал. Что создаст трудности как работодателю, так и специалистам.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40023192
    Полковник.
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Критик,

    Процесс распилов и откатов должен не останавливаться, отсюда все эти новомодные технологии и смены парадигм, довелось столкнуться в живую смена парадигмы ХД (не удобно, не удовлетворяет бла бла бла) на дата лайк, парадигму меняли те, кто ХД сделал через ж-пу, дата лайк у них думаю получился ни чуть не лучше.
    А пока по факту нормальную, простую базу данных для ГИБДД создать не в состоянии, не говоря уж о передаче данных от одной госструктуры в другюю.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40023215
    H5N1
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Полковник.
    Процесс распилов и откатов должен не останавливаться, отсюда все эти новомодные технологии и смены парадигм

    что-то пенсией и обидой просквозило.

    Полковник.
    довелось столкнуться в живую смена парадигмы ХД (не удобно, не удовлетворяет бла бла бла) на дата лайк

    data lake пришел из опенсоурса и hadoop, того самого hadoop, что суют ради удешевления проектов. пытаться его натягивать на распилы не самая здоровая идея. сдается мне пилить на ораклах и майкрософтах заметно более популярное занятие.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40023228
    Фотография Vyatich
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    H5N1
    data lake пришел из опенсоурса и hadoop, того самого hadoop, что суют ради удешевления проектов. пытаться его натягивать на распилы не самая здоровая идея. сдается мне пилить на ораклах и майкрософтах заметно более популярное занятие.

    hadoop на клаудерах пилится ни чуть не хуже.
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40023232
    Фотография vikkiv
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    Критик
    vikkiv,
    Что-то мне говорит, что рынок труда специалистов по U-SQL и подобным не стандартным штукам весьма мал. Что создаст трудности как работодателю, так и специалистам.
    Если вопрос именно по MS то я как-бы согласен с тем что будущее U-SQL (и ADLA) весьма под большим вопросом
    (вместе с ADLS Gen1 на Hadoop), т.к. не совместимо с ADLS Gen2 (что в принципе уже другой продукт) и с последней версией стало
    легче напрямую работать (парсить/конвертировать файлы) другими инструментами (DataBricks, Python, PS / CloudShell / C# и пр.)

    Тот-же SQL Server (и его облачные клоны) довольно давно (кажется появилось в 2016-й версии) вполне даже адаптированны именно
    под такой подход (чаще используемый в ETL целях) через External Tables (Data Sources / File Formats) на PolyBase (без всяких MapReduce)
    даже не говоря об ещё раньше появившихся Linked Servers или OpenQuery/OpenRowset

    Что собственно не меняет самой сути - где и в каком виде хранятся данные (вплоть до SchemaOnRead): в RDBMS/MPP или на диске..
    По скоростям конечно далеко до MPP несмотря на кластеры (Compute/Worker ноды) со стороны обработки файлов (партиционирование и пр.)
    но для моделирования и не быстрых вариантов DWH медленной отчётности подешевле с файловой системы - вполне годится.

    Там так замутили чисто из-за того что DL помойка уже была общая для всего энтерпрайса
    (куда бросали всё, отовсюду и в разных форматах, структурированное и нет),
    с оркестрацией через ADF, и решили не заморачиваться лишними расходами типа Synapse плюс разработка.
    (MPP который вроде-бы как всё равно архитектурно работает на ADLS Gen2,
    к тому-же теперь включает интегрированный Apache Spark {Scala} тоже на ADLS Gen2
    {опять-же вспоминается DataBricks со своей встроенной / native поддержкой SQL
    да на их-то масштабируемых кластерах фактически опять получается тот-же MPP})


    Synapse есть - но он для других более критичных целей аналитики
    я так понял что по их оценке неоправданно было из финансовых соображений многие проекты на MPP/DWH переносить
    т.е. в их случае часть Power BI отчётности (в пределах нескольких датамартов) приемлемо работала и с DL без проблем
    (данные из новых заброшенных в контейнер файлов появлялись на фронт-енде автоматически)

    Даже облачный SSAS (AAS табличный) работает с DataLake напрямую (нет необходимости прокачивать данные по всей длинной цепи до DWH)
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40023264
    H5N1
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    vikkiv
    часть Power BI отчётности (в пределах нескольких датамартов) приемлемо работала и с DL без проблем
    (данные из новых заброшенных в контейнер файлов появлялись на фронт-енде автоматически)


    месяц-два назад пробовал поковырять - там все в духе майкрософт. powerbi умеет читать с ADLS Gen2 только в режиме импорта. соответственно рефреш на про лицензиях не более 8 раз в сутки + 10 гб лимит на табличку. при этом ни parquet, ни databricks дельту, ни orc читать не умеет. умеет только совершенно примитивные форматы типа json, xl, csv.
    с такими ограничениями я бы постремался что-то серьезное строить.

    vikkiv

    Даже облачный SSAS (AAS табличный) работает с DataLake напрямую (нет необходимости прокачивать данные по всей длинной цепи до DWH)

    SSAS умеет parquet/databricks delta читать ?
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40023515
    Фотография vikkiv
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    H5N1
    при этом ни parquet, ни databricks дельту, ни orc читать не умеет.

    По поводу DataBricks (и Power BI) - eсли через Hive сделал то вот здесь на 9й минуте говорят (и показывают) что видно.

    YouTube Video
    ...
    Рейтинг: 0 / 0
    А зачем вообще нужны MPP Databases??
        #40023544
    H5N1
    Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
    Участник
    vikkiv

    По поводу DataBricks (и Power BI) - eсли через Hive сделал то вот здесь на 9й минуте говорят (и показывают) что видно.

    датабрикс кластер это совсем другая история. там то понятно, поднимают хадуп, не из одной ноды, включают счетчик для богатых и поехали. разговор вроде был вроде о "медленной отчётности подешевле с файловой системы"

    vikkiv

    но для моделирования и не быстрых вариантов DWH медленной отчётности подешевле с файловой системы - вполне годится.

    Там так замутили чисто из-за того что DL помойка уже была общая для всего энтерпрайса
    (куда бросали всё, отовсюду и в разных форматах, структурированное и нет)


    я решил что DL у вас файлики на ADLS.

    vikkiv

    Если именно чтение (с распаковкой и парсингом) из Data Lake напрямую в Power BI
    то как-бы можно найти тысячи форматов которые не поддерживаются
    тот-же .bat не раскрывает, .exe не выполняет, причин много,
    некоторые форматы это ещё и вопрос лицензии третих лиц (прежде чем их в библиотеки встраивать)

    так я и говорю, все сделано в стиле майкрософт. в результате самый эффективный из доступных формат для powerbi- сsv. кто-то в серьез будет рассматривать постройку датамартов для отчетов в csv ? не будет. а ничего интересней powerbi не читает.
    хотя надо признать, что что-то серьезней csv для powerbi и не имеет смысла, все равно режим только импорта. скорость чтения при ограничениях импорта powerbi и не важна.

    vikkiv

    Для Data Lake - ну так какой Direct Query, они-ведь файлы а не база данных

    именно, получается задешево отчетность на файликах в ADLS не построить, надо поднимать дорогой кластер - или hdinsight или databriks.
    ... и внимательно считать, точно ли дорогой кластер, который придется держать постоянно включенным, будет органично сочитаться с желанием построить дешевый дата лейк.
    по мне так это убивает единственное существенно преимущество - дешевизну.

    vikkiv

    10Gb на табличку (вроде как для Pro <= 1Gb)?
    У нас для конечного пользователя такие вещи массово непопулярны по совсем другим причинам ибо не фэн-шуй.
    8 раз за день? Так и для Premium ограничение есть, сколько надо?

    да, точно. 10 гб это премиум, у про вовсе 1 гб.

    vikkiv

    (не знаю настолько досконально PBI облачную платформу но можно наверное и другими механизмами?)
    хотя да, на Pro имеет смысл т.к. для Premium - Dedicated Compute Capacity, что с ним делаешь - твоё дело

    можно рестом делать рефреш, но там те же ограничения.
    It is also important to call out that the shared-capacity limitation for daily refreshes applies to both scheduled refreshes and API refreshes combined.

    у премиум вроде 48 рефрешей, с этим уже можно жить.
    ...
    Рейтинг: 0 / 0
    35 сообщений из 35, показаны все 2 страниц
    Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / А зачем вообще нужны MPP Databases??
    Целевая тема:
    Создать новую тему:
    Автор:
    Закрыть
    Цитировать
    Найденые пользователи ...
    Разблокировать пользователей ...
    Читали форум (0):
    Пользователи онлайн (0):
    x
    x
    Закрыть


    Просмотр
    0 / 0
    Close
    Debug Console [Select Text]