|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Сходил тут SQL Saturday в недавнюю..... кажется субботу(!) Микрософт просто адски пушает Databrick, но речь не об этом. Местные консалтеры уверены, если вы хотите современное Хранилище - то, где вместо унылых файлов и/или базы под Staging Аrea всем надо срочно внедрить Data Lakи Что думаете? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 16:09 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
унылый хадуп под стейджинг? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 17:33 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
GlebanskiСходил тут SQL Saturday в недавнюю..... кажется субботу(!) Микрософт просто адски пушает Databrick, но речь не об этом. Местные консалтеры уверены, если вы хотите современное Хранилище - то, где вместо унылых файлов и/или базы под Staging Аrea всем надо срочно внедрить Data Lakи Что думаете? Ахаха ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 18:27 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
авторМикрософт....Дальше можно не читать... :) ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 18:29 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
L_argo, Да если на Microsoft тусне такое вещают, то что на других происходит? Вообще мрак наверно. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 20:47 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
А что Microsoft? Плохо что ли? Или вы в прошлом еще с Win95? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 21:49 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
GlebanskiМестные консалтеры уверены...всем надо срочно внедрить Data Lakи Что думаете? То есть умные ребята готовы осваивать шекели заказчиков. Много шекелей. Срочно осваивать. А при чем же здесь Microsoft? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 21:54 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Andy_OLAP, У L_argo спросите. Наверно что-то личное ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 23:05 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
GlebanskiСходил тут SQL Saturday в недавнюю..... кажется субботу(!) Микрософт просто адски пушает Databrick, но речь не об этом. Местные консалтеры уверены, если вы хотите современное Хранилище - то, где вместо унылых файлов и/или базы под Staging Аrea всем надо срочно внедрить Data Lakи Что думаете? Учитывая, что половина консалтеров не понимает, что такое полуаддитивные меры, отношения m2m, ничего другого им и не остается. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2018, 10:49 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
tarrusGlebanskiСходил тут SQL Saturday в недавнюю..... кажется субботу(!) Микрософт просто адски пушает Databrick, но речь не об этом. Местные консалтеры уверены, если вы хотите современное Хранилище - то, где вместо унылых файлов и/или базы под Staging Аrea всем надо срочно внедрить Data Lakи Что думаете? Учитывая, что половина консалтеров не понимает, что такое полуаддитивные меры, отношения m2m, ничего другого им и не остается. что-то мне подсказывает что эти консалтеры хоть и с нулевыми знаниями, но наголову выше местной публики. хотя бы даташыты по англицки прочесть могут. https://databricks.com/blog/2017/11/15/a-technical-overview-of-azure-databricks.html нет там хадупов, пропихивают какого-то франкинштейна, где у спарка вместо hdfs какой-то dbfs и прочая ажурная муть. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2018, 11:37 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
churupaha, отличный рассказ. От себя добавлю, что пара местных консалтеров толкающих Azure Data Lake Analytics после посещения microsoft ignite очень расстроились. Они рассказали, что Microsoft явно пушает Databricks в ущерб их любимому Analytics. Просто сравнивая кол-во воркшопов и упоминаний. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.10.2018, 14:49 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
авторWell with Data Flow Microsoft have done something really special. The JSON output from the graphic ADF-DF user interface is used to write the Scala for us! This then gets compiled into the Jar file and passed to Azure Databricks to execute as a job on a given cluster (defined via ADF linked services as normal). Azure Data Flow (ADF-DF) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.10.2018, 18:38 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Помню, еще года три назад Оракл толкал тему выноса предрасчета агрегатов в Хадуп. И различных трудоемких трансформаций. Мол, например, у телекома офигезно много данных с базовых станций, и А) - хранить это в реляционке тупо дорого, и Б) большое количество мощных серверов (конечно Oracle BigData Appliance) легче и быстрее справятся с очисткой-подготовкой данных. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 09:53 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
ну так уже все доперли что хранить сырье в реляционке дорого. А вот расчеты это уже по возможностям. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 11:00 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
КэптенПомню, еще года три назад Оракл толкал тему выноса предрасчета агрегатов в Хадуп. И различных трудоемких трансформаций. Мол, например, у телекома офигезно много данных с базовых станций, и А) - хранить это в реляционке тупо дорого, и Б) большое количество мощных серверов (конечно Oracle BigData Appliance) легче и быстрее справятся с очисткой-подготовкой данных. У Инмона есть статья почему даталайк не хранилище данных. В двух словах 1 пользователям нужны понятные им структуры данных для анализа - это хранилище данных, данные структурированы, разложены по таблицам и колонкам 2 даталайк это технология обработки больших массивов данных параллельным процессом. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 11:00 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Полковник. У Инмона есть статья почему даталайк не хранилище данных. В двух словах 1 пользователям нужны понятные им структуры данных для анализа - это хранилище данных, данные структурированы, разложены по таблицам и колонкам 2 даталайк это технология обработки больших массивов данных параллельным процессом. а можно точнее что за книга? а то как-то не понятно на кой пользователю хранилище, если даталейк витрины пользователям строит. вполне структурированные. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 12:47 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
У меня есть архив ХД, в который складываются входящие XML. Но сделать это центральным элементом ХД и обозвать DataLake мне в голову не пришло... ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 12:57 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
из корп. чатикаWe should NOT use Data lake analytics and USQL. Instead Databricks with Python and Spark SQL We just learned that Data Lake Analytics will be discontinued and USQL will not be supported any longer by Microsoft Data Lake Store Gen1 will be replaced by Data Lake store Gen2 end of this year, and migration will be easier from Blob ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 13:28 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
.ЕвгенийУ меня есть архив ХД, в который складываются входящие XML. Но сделать это центральным элементом ХД и обозвать DataLake мне в голову не пришло... и никому не приходит. далейком называют то во что эти xml трансформировали . orc, parquet, hbase и прочие файлики на hdfs. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 14:51 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
H5N1Полковник.У Инмона есть статья почему даталайк не хранилище данных. В двух словах 1 пользователям нужны понятные им структуры данных для анализа - это хранилище данных, данные структурированы, разложены по таблицам и колонкам 2 даталайк это технология обработки больших массивов данных параллельным процессом. а можно точнее что за книга? а то как-то не понятно на кой пользователю хранилище, если даталейк витрины пользователям строит. вполне структурированные. Я выше написал - статья. Года три назад Инмон раз в неделю писал по статье, где обличал любителей свалить все в кучу и назвать это даталайк. Витрины поверх даталайк появились именно потому что пользователям нужны структурированные данные. А теперь вопрос - зачем эта прослойка, которую все упорно пытаются варить называя это изделие красивым словосочетанием - озеро данных? ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 16:47 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
H5N1, я считал, что Data Lake это все это в одном месте, то есть такая мегамусорка ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 16:48 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
H5N1и никому не приходит. далейком называют то во что эти xml трансформировали . orc, parquet, hbase и прочие файлики на hdfs. А-аа, все понятно! Datalake по определению бывает только поверх Hadoop, поэтому мне надо запихать xml-ки в хадуп и вот тогда озеро украсит мой повседневный пейзаж ИТ-систем! Не было у меня ни малейшей нужды в хадупе - а вот появилась! ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 17:43 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
сейчас все хранилища делают с предбанником из хадуп, который в разной степени пытаются натянуть на всё хранилище поэтому удивление автора темы непонятно А Inmon это outdated дед. Есть сомнение, что он может что-то решать сейчас по теме. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 18:06 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Полковник.Я выше написал - статья. Года три назад Инмон раз в неделю писал по статье, где обличал любителей свалить все в кучу и назвать это даталайк. ну вот хотелось бы ссылочку, что бы не вышло как в той истории, где рабинович напел Полковник.Витрины поверх даталайк появились именно потому что пользователям нужны структурированные данные. сомневаюсь. даталейки из ентерпрайза и банков пошли, а там все данные хорошо структурированы. подозреваю банку в принципе что-то не структурированное грузить смертный приговор. Полковник. А теперь вопрос - зачем эта прослойка, которую все упорно пытаются варить называя это изделие красивым словосочетанием - озеро данных? - что бы эффективно обрабатывать данные там где они лежат, а не таскать без конца данные из субд во всякие питоны, R и sas data майнеры. в обычной субд нет даже базовых алгоритмов анализа, все что сложне AVG() требует перекачки данных. - что бы пользователь получил привычные данные в человеческом виде, а не набор мутных фактов, которые еще толпа инженеров нужна, что бы правильно заджоинить. - имея резиновые ресурсы, многие вещи можно тупо и в лоб проворачивать. там где рсубд хранилище будет выдумывать мутные алгоритмы исправлений косяка, на хадупах просто перестроят витрину, не вникая даже в суть проблемы. - что бы с какой-нить ESB в реалтайме данные читать, а не по старинке батчами - с консистентностью на хадупах все сделано удобней, в рдбмс же exchange partition на всю бд не сделать. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2018, 19:22 |
|
|
Start [/forum/topic.php?fid=49&fpage=2&tid=1857084]: |
0ms |
get settings: |
2ms |
get forum list: |
10ms |
check forum access: |
0ms |
check topic access: |
0ms |
track hit: |
36ms |
get topic data: |
5ms |
get forum data: |
3ms |
get page messages: |
51ms |
get tp. blocked users: |
0ms |
others: | 101ms |
total: | 208ms |
0 / 0 |