powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / ВТБ, Hadoop, MS SQL
25 сообщений из 29, страница 1 из 2
ВТБ, Hadoop, MS SQL
    #39585415
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги, есть смысл у такого решения?

http://www.cnews.ru/news/top/2018-01-16_bank_vtb_podruzhil_hadoop_s_microsoft Как стало известно CNews, первый эксперимент ВТБ по внедрению инструментов больших данных с использование свободного ПО в своем развитии сделал ставку на более традиционные проприетерные программные продукты. Пользователям созданной в банке системы ГАУСС для формирования аналитической и управленческой отчетности на открытой платформе Hadoop с использованием свободной СУБД PostgreSQL и применением технологий обработки данных Apache Spark и Apache Zeppelin потребовались привычные инструменты бизнес-аналитики, а именно Microsoft Power BI.

С учетом того, что напрямую Power BI с Hadoop взаимодействовать не может, но хорошо работает с данным в Microsoft SQL Server, в ВТБ решили осуществить интеграцию этой СУБД с Hadoop, задействовав для этого Microsoft Polybase. Эта технология обращается к информации за пределами базы данных с помощью языка Transact-SQL (T-SQL — процедурное расширение языка SQL). В SQL Server она позволяет выполнять запросы к внешним данным в хранилище BLOB-объектов (массивов двоичных данных) Hadoop, а также импортировать в него данные и экспортировать их из него.



Или просто неосилили глянуть видео?

YouTube Video
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585440
T87
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик,

Или с лицензий Sql Server откаты получили?
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585441
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
По словам Батюкова, для реализации любого алгоритма в Hadoop требуются навыки в программировании. Что же касается Microsoft Power BI, то он позволяет аналитикам строить любые отчеты в рамках предварительно настроенной модели данных , источником которых является Hadoop

Аналитеги не осилили sql?)
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585444
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хотя зря я так...
Может Hive, impala, Power BI генерят хреновые мап редьюсы, что разрабам приходится все агрегаты тащить в БД?
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585458
Andy_OLAP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик,

Смысла нет. Вот хорошая статья, как хадуп мучают парни из Селектела .
А вот ключевой комментарий "Он действительно медленный. Это скорее болезнь Hadoop, лежащего в основе. Данные размером в 32Гб обрабатывались 15 минут, причем расход оперативки составил 91Гб ? 180 млн записей? Простите, да банальнейший кластер Postgres сделал бы то же самое, да еще и (возможно) быстрее. С Hive та же беда....Хадуп — один из немногих инструментов для обработки действительно больших данных, но на данных средних размеров он бесполезен" и другой комментарий "...сам хотел добавить, что Vectorwise подобные подсчеты на 500 млн строк да еще и с джойном с таблицей из 10 млн строк выдал за 17 секунд в однонодовой конфигурации с 64 гигами и 8 ядрами".
Ну а в PowerBI как начнут агрегированные на лету отчеты с общими суммами за весь год строить поверх готовой таблицы-витрины - так хадуп по сравнению с обычным DWH типа Vertica и умрет...
Впрочем, видео таки не смотрел, посмотрю, насколько оно кошерное :)
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585459
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1Может Hive, impala, Power BI генерят хреновые мап редьюсы, что разрабам приходится все агрегаты тащить в БД?

ну, не дураки же в MS, у Power BI и PolyBase одна компания-разработчик,
вот мне и интересно, что им дало использование прослойки в виде PolyBase, кроме немаленьких затрат на лицензии
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585460
Andy_OLAP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
КритикИли просто неосилили глянуть видео?
YouTube Video
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585461
Andy_OLAP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик,

Вот смотрите - дорожная карта для 3-й версии хадупа . Понятно, что Cloudera и Hortonworks будут пилить расчеты на GPU. Это откусит кусок пирога от MS. Поэтому парни из Редмонда словно говорят - "вы таки всегда можете использовать кошерный HDFS в Azure облаке, не нужны вам расчеты на CPU. И даже можете отчеты на PowerBI сверху прикрутить и тоже в облаке. И никаких затрат на свое железо. Устойчиво, масштабируемо под нагрузку, дорого вполне нормально по грабительским ценам".
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585465
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критикмигель1Может Hive, impala, Power BI генерят хреновые мап редьюсы, что разрабам приходится все агрегаты тащить в БД?

ну, не дураки же в MS, у Power BI и PolyBase одна компания-разработчик,
вот мне и интересно, что им дало использование прослойки в виде PolyBase, кроме немаленьких затрат на лицензии

Если я правильно понял, они не запросы через poly base прокидывают, а тянут данные из хадупа и кладут из в витрины

"В Hadoop хранится большое количество деталей, например, номер, дата, сумма транзакции, а в Power BI используются только агрегированные данные , например суммы комиссий».
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585466
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Andy_OLAPКритик,

Смысла нет. Вот хорошая статья, как хадуп мучают парни из Селектела .
А вот ключевой комментарий "Он действительно медленный. Это скорее болезнь Hadoop, лежащего в основе. Данные размером в 32Гб обрабатывались 15 минут, причем расход оперативки составил 91Гб ? 180 млн записей? Простите, да банальнейший кластер Postgres сделал бы то же самое, да еще и (возможно) быстрее. С Hive та же беда....Хадуп — один из немногих инструментов для обработки действительно больших данных, но на данных средних размеров он бесполезен" и другой комментарий "...сам хотел добавить, что Vectorwise подобные подсчеты на 500 млн строк да еще и с джойном с таблицей из 10 млн строк выдал за 17 секунд в однонодовой конфигурации с 64 гигами и 8 ядрами".
Ну а в PowerBI как начнут агрегированные на лету отчеты с общими суммами за весь год строить поверх готовой таблицы-витрины - так хадуп по сравнению с обычным DWH типа Vertica и умрет...
Впрочем, видео таки не смотрел, посмотрю, насколько оно кошерное :)
у чудиков руки кривые. пиг как я понимаю хрень умершая до 2010, нафига труп было тестировать в 2014 не понятно. хайв, который в мап-редюс в 80% хрень генерит, особенно с джоинами. все что показал тест - отсутствие моска и не понимания как работает мап-редюс.

лезть в хадуп через мсскл ... наркомания и тяжелая.
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585559
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1"В Hadoop хранится большое количество деталей, например, номер, дата, сумма транзакции, а в Power BI используются только агрегированные данные , например суммы комиссий».

Тогда подход выглядит странным вдвойне )
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585621
Andy_OLAP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критикмигель1"В Hadoop хранится большое количество деталей, например, номер, дата, сумма транзакции, а в Power BI используются только агрегированные данные , например суммы комиссий».

Тогда подход выглядит странным вдвойне )
Такие проекты делаются для 5 и более целей:
1. Занять мозги программистов новой для них технологией, чтобы у них маразм от ослабления мозговой деятельности раньше времени не начался.
2. Поставить в резюме птичку "работал с hadoop, powerbi, много других страшных, крутых и непонятных слов" или "руководил внедрением тестовых моделей на новейших технологиях для апробации бизнес-идей".
3. В разговоре с другими владельцами бизнеса ввернуть "у меня мои на острие прогресса, хадуп пилят, powerbi крутят, у нас в банке/телекоме без новейших технологий ну просто никак, мы же флагман отрасли".
4. В разговоре с вендорами ввернуть "не хотите скидку на лицензии/продукты, мы на бесплатный хадуп перейдем, опыт есть, под наши потребности этот кусок навоза не нужен этот продукт вполне подходит".
5. Послать своих орлов на конференцию и там ввернуть в мозги конкурентам как космические корабли бороздят просторы Большого театра "мы оракл/мсскл уже не пилим, у нас крутые новые технологии, следуйте за нами, все будет хорошо", а тем временем дальше маленькой тестовой поделки это все не пускать.

Так что все хорошо - и разработчикам, и менеджерам проектов, и владельцам бизнеса (не такие и большие деньги на паре простаивающих серверов хадуп развернуть под бесплатный PowerBI Desktop).
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585794
s_ustinov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критикмигель1"В Hadoop хранится большое количество деталей, например, номер, дата, сумма транзакции, а в Power BI используются только агрегированные данные , например суммы комиссий».

Тогда подход выглядит странным вдвойне )
Думаю, им просто нравится думать, что у них есть большие данные (большому банку - как без больших данных?)
Это "большое количество деталей, например, номер, дата, сумма транзакции" прекрасно может храниться в обычной РСУБД - не настолько там много транзакций. Но это ведь не модно и не современно... Вот и придумывают себе большие данные.
Ну а чё - в ексель ведь не помещаются - значит, большие!
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585898
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
s_ustinovДумаю, им просто нравится думать, что у них есть большие данные (большому банку - как без больших данных?)
Это "большое количество деталей, например, номер, дата, сумма транзакции" прекрасно может храниться в обычной РСУБД - не настолько там много транзакций. Но это ведь не модно и не современно... Вот и придумывают себе большие данные.
Ну а чё - в ексель ведь не помещаются - значит, большие!
обычная РСУБД необычно счет большой счет выставит большому банку. на столько большой, что никакого смысла с обычной РСУБД связываться нет. потому и придумывают бигдата. а вот в чем смысл придумывать бигдата с мсскл, которая все приключения хадуп перемножит на счета мсскл мало понятно.
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585917
s_ustinov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Yo.!s_ustinovДумаю, им просто нравится думать, что у них есть большие данные (большому банку - как без больших данных?)
Это "большое количество деталей, например, номер, дата, сумма транзакции" прекрасно может храниться в обычной РСУБД - не настолько там много транзакций. Но это ведь не модно и не современно... Вот и придумывают себе большие данные.
Ну а чё - в ексель ведь не помещаются - значит, большие!
обычная РСУБД необычно счет большой счет выставит большому банку. на столько большой, что никакого смысла с обычной РСУБД связываться нет. потому и придумывают бигдата. а вот в чем смысл придумывать бигдата с мсскл, которая все приключения хадуп перемножит на счета мсскл мало понятно.
10 лет назад Yahoo в почти обычной РСУБД https://habrahabr.ru/post/26289/]хранил пару петабайт . И счет за РСУБД был, я так подозреваю, не запредельный.
Другое дело, что на спецов пришлось потратиться - но на них всегда тратиться надо.

Бизнес-данные (транзакции, проводки и тп) - это не бигдата. И для них еще 40 лет назад придумали РСУБД.
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585920
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Yo.!s_ustinovДумаю, им просто нравится думать, что у них есть большие данные (большому банку - как без больших данных?)
Это "большое количество деталей, например, номер, дата, сумма транзакции" прекрасно может храниться в обычной РСУБД - не настолько там много транзакций. Но это ведь не модно и не современно... Вот и придумывают себе большие данные.
Ну а чё - в ексель ведь не помещаются - значит, большие!
обычная РСУБД необычно счет большой счет выставит большому банку. на столько большой, что никакого смысла с обычной РСУБД связываться нет. потому и придумывают бигдата. а вот в чем смысл придумывать бигдата с мсскл, которая все приключения хадуп перемножит на счета мсскл мало понятно.
ну пусть не обычная - пусть опенсорсная субд - например Greenplum - опенсорс уже пару лет как.
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585943
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
s_ustinov 10 лет назад Yahoo в почти обычной РСУБД https://habrahabr.ru/post/26289/]хранил пару петабайт . И счет за РСУБД был, я так подозреваю, не запредельный.
Другое дело, что на спецов пришлось потратиться - но на них всегда тратиться надо.

Бизнес-данные (транзакции, проводки и тп) - это не бигдата. И для них еще 40 лет назад придумали РСУБД.
в 90х помню и на foxpro люди извращались и строили на гигабайтных файликах. врятли то был показатель крутости. помню Yahoo и на пых-пых одно время сидел.

Ivan Durakну пусть не обычная - пусть опенсорсная субд - например Greenplum - опенсорс уже пару лет как.
не знаю. мне казалось Greenplum таки остался ближе к рсубд с индексами, форейн кеями и транзакциями.
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585945
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Yo.!Ivan Durakну пусть не обычная - пусть опенсорсная субд - например Greenplum - опенсорс уже пару лет как.
не знаю. мне казалось Greenplum таки остался ближе к рсубд с индексами, форейн кеями и транзакциями.
+ MPP и Колумн сторе. То что доктор прописал для финансовой аналитики.
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585947
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak,

опенсорсная слива с ограничениями или вопрос только в саппорте?
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585956
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ДедушкаIvan Durak,

опенсорсная слива с ограничениями или вопрос только в саппорте?
только в саппорте.
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39585984
Фотография Alex_496
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Andy_OLAPКритикпропущено...


Тогда подход выглядит странным вдвойне )
Такие проекты делаются для 5 и более целей:
1. Занять мозги программистов новой для них технологией, чтобы у них маразм от ослабления мозговой деятельности раньше времени не начался.
2. Поставить в резюме птичку "работал с hadoop, powerbi, много других страшных, крутых и непонятных слов" или "руководил внедрением тестовых моделей на новейших технологиях для апробации бизнес-идей".
3. В разговоре с другими владельцами бизнеса ввернуть "у меня мои на острие прогресса, хадуп пилят, powerbi крутят, у нас в банке/телекоме без новейших технологий ну просто никак, мы же флагман отрасли".
4. В разговоре с вендорами ввернуть "не хотите скидку на лицензии/продукты, мы на бесплатный хадуп перейдем, опыт есть, под наши потребности этот кусок навоза не нужен этот продукт вполне подходит".
5. Послать своих орлов на конференцию и там ввернуть в мозги конкурентам как космические корабли бороздят просторы Большого театра "мы оракл/мсскл уже не пилим, у нас крутые новые технологии, следуйте за нами, все будет хорошо", а тем временем дальше маленькой тестовой поделки это все не пускать.

Так что все хорошо - и разработчикам, и менеджерам проектов, и владельцам бизнеса (не такие и большие деньги на паре простаивающих серверов хадуп развернуть под бесплатный PowerBI Desktop).

можно еще несколько доводов в обоснование привести.
Когда денег куры не клюют и эти деньги не такие трудные, то чего бы амбиции не почесать.

Есть хорошее определение Бигдата - это большие деньги на ниве информационных технологий
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39586014
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик,

Я на такие темы давно уже не ведусь.
Потому что знаю как в России все устроено...
Самый главный, например Греф из Сбера, придумал какуюнить шнягу или ему кто то из друганов сказал или втюхал что эта шняга это мега круть.
Вызвал он к себе наиглавнейшего айтишника, тот сказал сделаем - как два пальца и вызвал айтишника поменьше и так до самого низу
А внизу сидит рукожопый студент за 25 тыс. рублей которому на самом деле пофиг все на свете, особенно работа, он что то смастерил и даже кому то показал, скорее всего какой то даже отчет замастырил.
И потом пошло наверх по цепочке - сделали, в кровь расшиблись а сделали, никто же не хочет что бы его пинком под зад... и вот идет наиглавнейший айтишник к самому главному и говорит вот сделали, и еще сделаем ты только задание дай а мы уж расстараемся...
А на самом деле нихрена нет.
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39586021
s_ustinov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alex_496Есть хорошее определение Бигдата - это большие деньги на ниве информационных технологий

Не так давно рассказали байку.
В одной фирме с несколькими подразделениями работает 1С, разбитая на несколько баз.
И в центральной базе отчеты формируются медленно и нужные руководству не получается сделать.
На вопрос руководства - WTF?!?!!! ИТишники ответили, что "у нас же бигдата, это надо специальные технологии использовать, чтобы отчеты строить..."
Суммарный объем данных в центральной базе, куда все данные сливаются - меньше 100 гигабайт...
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39586033
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Полковник.И потом пошло наверх по цепочке - сделали, в кровь расшиблись а сделали, никто же не хочет что бы его пинком под зад... и вот идет наиглавнейший айтишник к самому главному и говорит вот сделали, и еще сделаем ты только задание дай а мы уж расстараемся...
А на самом деле нихрена нет.
по факту как раз сбер единственный, кто хоть что-то делает. они единственные кто пытаются слезть с оракла на опен соурс. остальные говнокодят какой-нить 1с и думают что санкции их не вырубят в ноль.
если сберу в этом году удасться пересесть с оракла на apache ignite кластер в 2000 нод, как запланировано, ему многое можно будет простить.
...
Рейтинг: 0 / 0
ВТБ, Hadoop, MS SQL
    #39586036
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
s_ustinovНа вопрос руководства - WTF?!?!!! ИТишники ответили, что "у нас же бигдата, это надо специальные технологии использовать, чтобы отчеты строить..."
Суммарный объем данных в центральной базе, куда все данные сливаются - меньше 100 гигабайт...
1с-никам какой инструмент не дай, результат был бы тот же. судить стоит по тем кто с руками, а не такжиков заставили убрать помещение и за одно налабать солюшен.
...
Рейтинг: 0 / 0
25 сообщений из 29, страница 1 из 2
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / ВТБ, Hadoop, MS SQL
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]