powered by simpleCommunicator - 2.0.44     © 2025 Programmizd 02
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Data Lake как Staging Area
25 сообщений из 158, страница 3 из 7
Data Lake как Staging Area
    #39722641
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш,

Он бесплатный только чтобы поиграться. За энтерпрайз нужно тоже платить.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39722682
.Евгений
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1твоя проблема в том что ты не инженер, тебе манагер гартнера сказал и все. ты веруешь в ерунду, поскольку это хорошо ложиться на твою картинку мира, где в даталейках плавают дураки. а техническую лит-ру ты открывать и не станешь. она же обрушить уютные представления может. ну нафиг нудятину Инмонов читать, манагер гартнера то лучше. с любой стороны.

Chapter 7 Application Data PondIf data finds its way into the application data pond in an integrated state, the organization is lucky. If data finds its way into the application data pond in an unintegrated state (which is the normal case) the organization must transform the data after it has entered the application data pond. This transformation step is very similar to conditioning for the analog data pond. If data is to be meaningfully used for analysis in the application data pond, the transformation of data into an integrated state is absolutely necessary. There are many reasons for the transformation and integration of application data pond data. Consider the following set of transformations, as seen in Fig 7.5. The different applications have gender encoding. In order to make the analysis consistent, the application data needs to be transformed into a consistent definition of gender. The same considerations hold true for measurement of distance. Inches and feet and yards need to be converted to centimeters if consistent and meaningful analysis is to be done.

Спасибо, теперь все стало на свои места. А именно: руководители продукта описывают даталейк как хранение данных в исходном виде, гуру-практики робко прячут тело жирное в утесах настаивают на целесообразности простейших трансформаций (хотя прекрасно понятно, что данные могут теряться и после сложных, и после простых трансформаций). Ну а рядовые консультанты вообще не заморачиваются и не рефлексируют: берут обычное ХД, прикручивают к нему Хадуп и искренне считают, что именно так и надо делать. "Идея, брошенная в массы, - это девка, брошенная в полк".

В отношении моих проблем я, боюсь, вынужден вас разочаровать. Я никогда не пытался сблизиться с даталейками, но скорее в силу чутья, чем из-за рациональных причин. Сейчас эти причины у меня появились. А внедренцы даталейков теперь вызывают у меня ощущение некоей... брезгливости, что ли? Как участники обмана, как компьютерщики по вызову, ставящие вместо оплаченной лицензионной винды сборку ZverCD. Действительно, зачем им знать, что такое грязные данные, когда можно получать деньги за одну только сопричастность к модному направлению?
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39722697
churupaha
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GlebanskiСходил тут SQL Saturday в недавнюю..... кажется субботу(!)
Микрософт просто адски пушает Databrick, но речь не об этом.


Делюсь ощущениями: второй день с databricks (spark + python) на реальных тасках (пока что разгребаю помойку с xml на blob storage). Впечатления только положительные в сравнении с U-SQL...
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39722731
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.Он бесплатный только чтобы поиграться. За энтерпрайз нужно тоже платить.
не надо. платить можно ... за супорт. но никто не заставляет. у клоудеры один дистрибутив
https://www.cloudera.com/downloads/cdh/6-0-1.html
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39722882
tarrus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1Полковник.Он бесплатный только чтобы поиграться. За энтерпрайз нужно тоже платить.
не надо. платить можно ... за супорт. но никто не заставляет. у клоудеры один дистрибутив
https://www.cloudera.com/downloads/cdh/6-0-1.html

Так объясните наконец. Кто файлики-то подготавливает? Святой дух? Или всё таки тот самый ненавистный вам ETL?
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39722932
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
tarrusТак объясните наконец. Кто файлики-то подготавливает? Святой дух? Или всё таки тот самый ненавистный вам ETL?

сам ETL делает хадуп, а как в raw data pond доставляют сырые файлики это зависит скорее от источника. есть коннекторы, есть sqoop, сейчас модно через кафку.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39722944
tarrus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1tarrusТак объясните наконец. Кто файлики-то подготавливает? Святой дух? Или всё таки тот самый ненавистный вам ETL?

сам ETL делает хадуп, а как в raw data pond доставляют сырые файлики это зависит скорее от источника. есть коннекторы, есть sqoop, сейчас модно через кафку.

В том то и дело, что само все равно ничего не делается и онлайн-аналитика - лукавство, всё равно. Источников миллион, и подготовить данные к горизонтальному масштабированию ничуть не менее сложная задача чем написать ETL в какой-нибудь будь ODS. Скорее наоборот, если большинство источников это RDBMS, то может и более сложно будет.

Я кстати, ничего против не имею, в отличии от Евгения, но я участвовал в подобных проектах и ничего простого и дешевого там я не увидел. Под свои задачи отличная штука, но агульно все ODS переводить на эту технологию считаю неоправданным.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39723805
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
tarrusВ том то и дело, что само все равно ничего не делается и онлайн-аналитика - лукавство, всё равно.

делается. береться какойнить голденгейт, тот читает в риалтайме оракловый лог и пишет в кафку, хадуп/spark читает с кафки и на ходу spark ml модели считает, за одно переобучает модели. результат терминами Инмона интегрирует в application pond.

tarrusИсточников миллион, и подготовить данные к горизонтальному масштабированию ничуть не менее сложная задача чем написать ETL в какой-нибудь будь ODS. Скорее наоборот, если большинство источников это RDBMS, то может и более сложно будет.

терминами Инмона интегрируешь ты в application pond, причем модель application pond должна быть как можно ближе к сырым данным. в идеале у там мизерные трансформации.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39731187
Glebanski
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
tarrus В том то и дело, что само все равно ничего не делается и онлайн-аналитика - лукавство, всё равно. Источников миллион

H5N1делается. береться какойнить голденгейт, тот читает в риалтайме оракловый лог и пишет в кафку,

tarrus +1
Бере т ся не просто так, а за 100500 евро. Пардон, ноль пропустил. За 1000500.
А если на один из источников не хватило бабла, или какие-нить греки/индусы решили не сдаваться и работать по старинке, то и весь риал-тайм накрылся.

ЗЫ: Мне голденгейт нравится, не подумайте ничего плохого :D
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39731270
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Нашел в сети небольшую статью об отличиях даталайка и ХД - и там и там данные для пользователей нужно структурироаать и обрабатывать в ХД данные обрабатываются на входе , в даталайке -на выходе. На мой взгляд простое и удачное пояснение различий.
По теме SA - это не только промежуточное хранение, но и обработка, подготовка данных. Поэтому ставить знак равенства между SA и даталайк не верно.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39731561
Фотография StarikNavy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.На мой взгляд простое и удачное пояснение различий.
вот, взяли , и в самый разгар священной войны, все... объяснили)
люди только начали длиной свеого dwh меряться
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39731623
tarrus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.Нашел в сети небольшую статью об отличиях даталайка и ХД - и там и там данные для пользователей нужно структурироаать и обрабатывать в ХД данные обрабатываются на входе , в даталайке -на выходе. На мой взгляд простое и удачное пояснение различий.
По теме SA - это не только промежуточное хранение, но и обработка, подготовка данных. Поэтому ставить знак равенства между SA и даталайк не верно.

Ссылочка сохранилась? Хочется добавить в копилку.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39731884
Гулин Федор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
tarrusСсылочка сохранилась? Хочется добавить в копилку.
+1 дайте то - а то шо ж так заинтересовать заинтересовали

зы сколько много новых слов то появилось
ща озера данных
скоро наверно моря появятся
потом Акияны - ну по логике биг даты.
маркетинг он такой :)
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732006
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кстати, в Газпромнефти вовсю работает Datalake. Но там интереснее структура.

В Hadoop льются сырые данные, но только те, которые требуют обработки (записи разговоров, стримы с видеокамер и т.п.). Потом из этих данных извлекается значимая информация и уже эти данные проходят контроль качества данных, происходит их обогащение и расчет показателей, после чего эти обработанные данные летят в РСУБД а оттуда - в клик. Управление метаданными в Qlik - NodeGraph. ETL для Hadoop - Informatica. Обработка данных в Hadoop - R и Mahout. Кому интересно - вот ссылка на презентации , в папке WYV 2018 лежит.

Если про Qlik говорить, т.е. куда эти данные потом и извлекаются (с возможностью перехода непосредственно к "сырой" информации), то в департаменте, где работает спикер - ДРП: 250 Приложений, в одном их подразделений - 1100+ пользователей, 2300 Реализованных отчетов, 150 источников данных. Обрабатывается 20Тб данных:
2012 -> 2015 3Tb
2015 -> 2016 +6Tb
2017 + 5Tb
2018 + 8Tb + Промежуточная РСУБД к Hadoop.

Очень интересная презентация. Мало у кого подобное работает, да еще и в продуктиве на такое кол-во сотрудников. И это - один из департаментов ГПН.

С Уважением,
Георгий.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732021
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
tarrus,

Доберусь сегодня до компа дам ссылку.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732058
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicКстати, в Газпромнефти вовсю работает Datalake. Но там интереснее структура.

В Hadoop льются сырые данные, но только те, которые требуют обработки (записи разговоров, стримы с видеокамер и т.п.). Потом из этих данных извлекается значимая информация и уже эти данные проходят контроль качества данных, происходит их обогащение и расчет показателей, после чего эти обработанные данные летят в РСУБД а оттуда - в клик. Управление метаданными в Qlik - NodeGraph. ETL для Hadoop - Informatica. Обработка данных в Hadoop - R и Mahout. Кому интересно - вот ссылка на презентации , в папке WYV 2018 лежит.
открыл файлик, вроде там есть шанс на нечто более вменяемое. на последних страницах они рисуют что у них все источники данные в озеро льют (стр. 46) и аналитика тоже в хадупе (стр. 48). на стр. 48 даже прямо надписи "экспорт транзакционных пакетов в экосистему HADOOP"
единственно не поятно что они обозвали рсубд внутри хадупа. я подозреваю это аля реляционные таблички impala, tez или sparkSQL.
врядли они копируют данные в хадуп потом в рсубд, потом в R, а потом еще и в клик. люди бы смеяться начали.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732098
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну там взяли курс на диджитализаю, дали бабла вот люди и "работают во всю".
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732146
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
tarrus,

Ссылки про различия:
1-я
2-я
3-я
4-я
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732526
tarrus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.tarrus,

Ссылки про различия:
1-я
2-я
3-я
4-я

Спасибо!
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732717
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
БумбарашНу там взяли курс на диджитализаю, дали бабла вот люди и "работают во всю".
если рсубд в хадупе у них это impala, tez или sparkSQL, то в вполне адекватный дизайн. причем еще раз подтверждающий мой поинт, что те кто не в бложик пишут, а поднимают реальные data lake проекты, те обрабатывают данные перед анализом. ковыряние в сырых данных бумага стерпит, реальный проект - нет.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732784
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1БумбарашНу там взяли курс на диджитализаю, дали бабла вот люди и "работают во всю".
если рсубд в хадупе у них это impala, tez или sparkSQL, то в вполне адекватный дизайн. причем еще раз подтверждающий мой поинт, что те кто не в бложик пишут, а поднимают реальные data lake проекты, те обрабатывают данные перед анализом. ковыряние в сырых данных бумага стерпит, реальный проект - нет.

Было бы странно не обрабатывать данные перед анализом. Ахахааа. Данные в ХД обрабатываются перед записью.
Подозреваю, что у вас нет реального опыта построения даталайк, все из презентаций берете?
Если есть ответьте на простой вопрос - что и как у вас с метаданными, можете описать структуру хранения метаданных?
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732824
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.Было бы странно не обрабатывать данные перед анализом. Ахахааа. Данные в ХД обрабатываются перед записью.
Подозреваю, что у вас нет реального опыта построения даталайк, все из презентаций берете?

подозреваю вы не русский. иврит родной? отмотай чуть назад увидишь что и как я читаю. потом открой свои ссылки и посмотри какие данные в дата лейке предлагают там анализировать и чем это от описанного Инмоном отличается
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732862
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1,

Ты не знаешь что в даталайке тоже должны быть метаданные? Поздравляю, господин соврамши, произошло "полное разоблачение"
по Булгакову.
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39732879
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.Ты не знаешь что в даталайке тоже должны быть метаданные? Поздравляю, господин соврамши, произошло "полное разоблачение"
по Булгакову.
ты упомянутою мной книгу Инмона открыл? прочел? чем его application pond или "рсубд" газпромнефти отличается от твоих ссылочек по бложикам осознал ? посмотри еще раз, что предлагает анализировать Инмон и что твои ссылочки
...
Рейтинг: 0 / 0
Data Lake как Staging Area
    #39733446
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А какие есть стандартные модели дата лейков? Или всё бухается as is как в одс. Или есть правила организации данных в этом лейке.
...
Рейтинг: 0 / 0
25 сообщений из 158, страница 3 из 7
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Data Lake как Staging Area
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]