Гость
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Data Lake как Staging Area / 25 сообщений из 158, страница 1 из 7
15.10.2018, 16:09
    #39717728
Glebanski
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
Сходил тут SQL Saturday в недавнюю..... кажется субботу(!)
Микрософт просто адски пушает Databrick, но речь не об этом.

Местные консалтеры уверены, если вы хотите современное Хранилище - то, где вместо унылых файлов и/или базы под Staging Аrea всем надо срочно внедрить Data Lakи
Что думаете?
...
Рейтинг: 0 / 0
15.10.2018, 17:33
    #39717779
Ivan Durak
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
унылый хадуп под стейджинг?
...
Рейтинг: 0 / 0
15.10.2018, 18:27
    #39717799
Полковник.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
GlebanskiСходил тут SQL Saturday в недавнюю..... кажется субботу(!)
Микрософт просто адски пушает Databrick, но речь не об этом.

Местные консалтеры уверены, если вы хотите современное Хранилище - то, где вместо унылых файлов и/или базы под Staging Аrea всем надо срочно внедрить Data Lakи
Что думаете?

Ахаха
...
Рейтинг: 0 / 0
15.10.2018, 18:29
    #39717801
L_argo
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
авторМикрософт....Дальше можно не читать... :)
...
Рейтинг: 0 / 0
15.10.2018, 20:47
    #39717833
Glebanski
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
L_argo,

Да если на Microsoft тусне такое вещают, то что на других происходит?
Вообще мрак наверно.
...
Рейтинг: 0 / 0
15.10.2018, 21:49
    #39717848
Barclay
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
А что Microsoft? Плохо что ли?
Или вы в прошлом еще с Win95?
...
Рейтинг: 0 / 0
15.10.2018, 21:54
    #39717852
Andy_OLAP
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
GlebanskiМестные консалтеры уверены...всем надо срочно внедрить Data Lakи
Что думаете?
То есть умные ребята готовы осваивать шекели заказчиков. Много шекелей. Срочно осваивать.
А при чем же здесь Microsoft?
...
Рейтинг: 0 / 0
15.10.2018, 23:05
    #39717862
Glebanski
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
Andy_OLAP,

У L_argo спросите. Наверно что-то личное
...
Рейтинг: 0 / 0
16.10.2018, 10:49
    #39717975
tarrus
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
GlebanskiСходил тут SQL Saturday в недавнюю..... кажется субботу(!)
Микрософт просто адски пушает Databrick, но речь не об этом.

Местные консалтеры уверены, если вы хотите современное Хранилище - то, где вместо унылых файлов и/или базы под Staging Аrea всем надо срочно внедрить Data Lakи
Что думаете?

Учитывая, что половина консалтеров не понимает, что такое полуаддитивные меры, отношения m2m, ничего другого им и не остается.
...
Рейтинг: 0 / 0
16.10.2018, 11:18
    #39718001
churupaha
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
...
Рейтинг: 0 / 0
16.10.2018, 11:37
    #39718019
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
tarrusGlebanskiСходил тут SQL Saturday в недавнюю..... кажется субботу(!)
Микрософт просто адски пушает Databrick, но речь не об этом.

Местные консалтеры уверены, если вы хотите современное Хранилище - то, где вместо унылых файлов и/или базы под Staging Аrea всем надо срочно внедрить Data Lakи
Что думаете?

Учитывая, что половина консалтеров не понимает, что такое полуаддитивные меры, отношения m2m, ничего другого им и не остается.
что-то мне подсказывает что эти консалтеры хоть и с нулевыми знаниями, но наголову выше местной публики. хотя бы даташыты по англицки прочесть могут.

https://databricks.com/blog/2017/11/15/a-technical-overview-of-azure-databricks.html

нет там хадупов, пропихивают какого-то франкинштейна, где у спарка вместо hdfs какой-то dbfs и прочая ажурная муть.
...
Рейтинг: 0 / 0
16.10.2018, 14:49
    #39718201
Glebanski
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
churupaha,

отличный рассказ.
От себя добавлю, что пара местных консалтеров толкающих Azure Data Lake Analytics после посещения microsoft ignite очень расстроились.
Они рассказали, что Microsoft явно пушает Databricks в ущерб их любимому Analytics. Просто сравнивая кол-во воркшопов и упоминаний.
...
Рейтинг: 0 / 0
22.10.2018, 18:38
    #39721113
churupaha
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
авторWell with Data Flow Microsoft have done something really special. The JSON output from the graphic ADF-DF user interface is used to write the Scala for us! This then gets compiled into the Jar file and passed to Azure Databricks to execute as a job on a given cluster (defined via ADF linked services as normal).


Azure Data Flow (ADF-DF)
...
Рейтинг: 0 / 0
23.10.2018, 09:53
    #39721261
Кэптен
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
Помню, еще года три назад Оракл толкал тему выноса предрасчета агрегатов в Хадуп. И различных трудоемких трансформаций.
Мол, например, у телекома офигезно много данных с базовых станций, и А) - хранить это в реляционке тупо дорого, и Б) большое количество мощных серверов (конечно Oracle BigData Appliance) легче и быстрее справятся с очисткой-подготовкой данных.
...
Рейтинг: 0 / 0
23.10.2018, 11:00
    #39721307
Ivan Durak
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
ну так уже все доперли что хранить сырье в реляционке дорого.
А вот расчеты это уже по возможностям.
...
Рейтинг: 0 / 0
23.10.2018, 11:00
    #39721309
Полковник.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
КэптенПомню, еще года три назад Оракл толкал тему выноса предрасчета агрегатов в Хадуп. И различных трудоемких трансформаций.
Мол, например, у телекома офигезно много данных с базовых станций, и А) - хранить это в реляционке тупо дорого, и Б) большое количество мощных серверов (конечно Oracle BigData Appliance) легче и быстрее справятся с очисткой-подготовкой данных.

У Инмона есть статья почему даталайк не хранилище данных. В двух словах 1 пользователям нужны понятные им структуры данных для анализа - это хранилище данных, данные структурированы, разложены по таблицам и колонкам 2 даталайк это технология обработки больших массивов данных параллельным процессом.
...
Рейтинг: 0 / 0
23.10.2018, 12:47
    #39721386
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
Полковник.
У Инмона есть статья почему даталайк не хранилище данных. В двух словах 1 пользователям нужны понятные им структуры данных для анализа - это хранилище данных, данные структурированы, разложены по таблицам и колонкам 2 даталайк это технология обработки больших массивов данных параллельным процессом.
а можно точнее что за книга? а то как-то не понятно на кой пользователю хранилище, если даталейк витрины пользователям строит. вполне структурированные.
...
Рейтинг: 0 / 0
23.10.2018, 12:57
    #39721397
.Евгений
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
У меня есть архив ХД, в который складываются входящие XML. Но сделать это центральным элементом ХД и обозвать DataLake мне в голову не пришло...
...
Рейтинг: 0 / 0
23.10.2018, 13:28
    #39721415
churupaha
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
из корп. чатикаWe should NOT use Data lake analytics and USQL. Instead Databricks with Python and Spark SQL
We just learned that Data Lake Analytics will be discontinued and USQL will not be supported any longer by Microsoft
Data Lake Store Gen1 will be replaced by Data Lake store Gen2 end of this year, and migration will be easier from Blob
...
Рейтинг: 0 / 0
23.10.2018, 14:51
    #39721481
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
.ЕвгенийУ меня есть архив ХД, в который складываются входящие XML. Но сделать это центральным элементом ХД и обозвать DataLake мне в голову не пришло...
и никому не приходит. далейком называют то во что эти xml трансформировали . orc, parquet, hbase и прочие файлики на hdfs.
...
Рейтинг: 0 / 0
23.10.2018, 16:47
    #39721551
Полковник.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
H5N1Полковник.У Инмона есть статья почему даталайк не хранилище данных. В двух словах 1 пользователям нужны понятные им структуры данных для анализа - это хранилище данных, данные структурированы, разложены по таблицам и колонкам 2 даталайк это технология обработки больших массивов данных параллельным процессом.
а можно точнее что за книга? а то как-то не понятно на кой пользователю хранилище, если даталейк витрины пользователям строит. вполне структурированные.

Я выше написал - статья. Года три назад Инмон раз в неделю писал по статье, где обличал любителей свалить все в кучу и назвать это даталайк.

Витрины поверх даталайк появились именно потому что пользователям нужны структурированные данные.

А теперь вопрос - зачем эта прослойка, которую все упорно пытаются варить называя это изделие красивым словосочетанием - озеро данных?
...
Рейтинг: 0 / 0
23.10.2018, 16:48
    #39721553
Критик
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
H5N1,

я считал, что Data Lake это все это в одном месте,
то есть такая мегамусорка
...
Рейтинг: 0 / 0
23.10.2018, 17:43
    #39721595
.Евгений
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
H5N1и никому не приходит. далейком называют то во что эти xml трансформировали . orc, parquet, hbase и прочие файлики на hdfs.
А-аа, все понятно! Datalake по определению бывает только поверх Hadoop, поэтому мне надо запихать xml-ки в хадуп и вот тогда озеро украсит мой повседневный пейзаж ИТ-систем! Не было у меня ни малейшей нужды в хадупе - а вот появилась!
...
Рейтинг: 0 / 0
23.10.2018, 18:06
    #39721604
Бумбараш
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
сейчас все хранилища делают с предбанником из хадуп, который в разной степени пытаются натянуть на всё хранилище

поэтому удивление автора темы непонятно

А Inmon это outdated дед. Есть сомнение, что он может что-то решать сейчас по теме.
...
Рейтинг: 0 / 0
23.10.2018, 19:22
    #39721654
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Data Lake как Staging Area
Полковник.Я выше написал - статья. Года три назад Инмон раз в неделю писал по статье, где обличал любителей свалить все в кучу и назвать это даталайк.

ну вот хотелось бы ссылочку, что бы не вышло как в той истории, где рабинович напел

Полковник.Витрины поверх даталайк появились именно потому что пользователям нужны структурированные данные.

сомневаюсь. даталейки из ентерпрайза и банков пошли, а там все данные хорошо структурированы. подозреваю банку в принципе что-то не структурированное грузить смертный приговор.

Полковник. А теперь вопрос - зачем эта прослойка, которую все упорно пытаются варить называя это изделие красивым словосочетанием - озеро данных?
- что бы эффективно обрабатывать данные там где они лежат, а не таскать без конца данные из субд во всякие питоны, R и sas data майнеры. в обычной субд нет даже базовых алгоритмов анализа, все что сложне AVG() требует перекачки данных.
- что бы пользователь получил привычные данные в человеческом виде, а не набор мутных фактов, которые еще толпа инженеров нужна, что бы правильно заджоинить.
- имея резиновые ресурсы, многие вещи можно тупо и в лоб проворачивать. там где рсубд хранилище будет выдумывать мутные алгоритмы исправлений косяка, на хадупах просто перестроят витрину, не вникая даже в суть проблемы.
- что бы с какой-нить ESB в реалтайме данные читать, а не по старинке батчами
- с консистентностью на хадупах все сделано удобней, в рдбмс же exchange partition на всю бд не сделать.
...
Рейтинг: 0 / 0
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Data Lake как Staging Area / 25 сообщений из 158, страница 1 из 7
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]