|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Бумбараш, Он бесплатный только чтобы поиграться. За энтерпрайз нужно тоже платить. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.10.2018, 09:59 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
H5N1твоя проблема в том что ты не инженер, тебе манагер гартнера сказал и все. ты веруешь в ерунду, поскольку это хорошо ложиться на твою картинку мира, где в даталейках плавают дураки. а техническую лит-ру ты открывать и не станешь. она же обрушить уютные представления может. ну нафиг нудятину Инмонов читать, манагер гартнера то лучше. с любой стороны. Chapter 7 Application Data PondIf data finds its way into the application data pond in an integrated state, the organization is lucky. If data finds its way into the application data pond in an unintegrated state (which is the normal case) the organization must transform the data after it has entered the application data pond. This transformation step is very similar to conditioning for the analog data pond. If data is to be meaningfully used for analysis in the application data pond, the transformation of data into an integrated state is absolutely necessary. There are many reasons for the transformation and integration of application data pond data. Consider the following set of transformations, as seen in Fig 7.5. The different applications have gender encoding. In order to make the analysis consistent, the application data needs to be transformed into a consistent definition of gender. The same considerations hold true for measurement of distance. Inches and feet and yards need to be converted to centimeters if consistent and meaningful analysis is to be done. Спасибо, теперь все стало на свои места. А именно: руководители продукта описывают даталейк как хранение данных в исходном виде, гуру-практики робко прячут тело жирное в утесах настаивают на целесообразности простейших трансформаций (хотя прекрасно понятно, что данные могут теряться и после сложных, и после простых трансформаций). Ну а рядовые консультанты вообще не заморачиваются и не рефлексируют: берут обычное ХД, прикручивают к нему Хадуп и искренне считают, что именно так и надо делать. "Идея, брошенная в массы, - это девка, брошенная в полк". В отношении моих проблем я, боюсь, вынужден вас разочаровать. Я никогда не пытался сблизиться с даталейками, но скорее в силу чутья, чем из-за рациональных причин. Сейчас эти причины у меня появились. А внедренцы даталейков теперь вызывают у меня ощущение некоей... брезгливости, что ли? Как участники обмана, как компьютерщики по вызову, ставящие вместо оплаченной лицензионной винды сборку ZverCD. Действительно, зачем им знать, что такое грязные данные, когда можно получать деньги за одну только сопричастность к модному направлению? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.10.2018, 11:04 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
GlebanskiСходил тут SQL Saturday в недавнюю..... кажется субботу(!) Микрософт просто адски пушает Databrick, но речь не об этом. Делюсь ощущениями: второй день с databricks (spark + python) на реальных тасках (пока что разгребаю помойку с xml на blob storage). Впечатления только положительные в сравнении с U-SQL... ... |
|||
:
Нравится:
Не нравится:
|
|||
25.10.2018, 11:26 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Полковник.Он бесплатный только чтобы поиграться. За энтерпрайз нужно тоже платить. не надо. платить можно ... за супорт. но никто не заставляет. у клоудеры один дистрибутив https://www.cloudera.com/downloads/cdh/6-0-1.html ... |
|||
:
Нравится:
Не нравится:
|
|||
25.10.2018, 12:12 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
H5N1Полковник.Он бесплатный только чтобы поиграться. За энтерпрайз нужно тоже платить. не надо. платить можно ... за супорт. но никто не заставляет. у клоудеры один дистрибутив https://www.cloudera.com/downloads/cdh/6-0-1.html Так объясните наконец. Кто файлики-то подготавливает? Святой дух? Или всё таки тот самый ненавистный вам ETL? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.10.2018, 14:58 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
tarrusТак объясните наконец. Кто файлики-то подготавливает? Святой дух? Или всё таки тот самый ненавистный вам ETL? сам ETL делает хадуп, а как в raw data pond доставляют сырые файлики это зависит скорее от источника. есть коннекторы, есть sqoop, сейчас модно через кафку. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.10.2018, 16:09 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
H5N1tarrusТак объясните наконец. Кто файлики-то подготавливает? Святой дух? Или всё таки тот самый ненавистный вам ETL? сам ETL делает хадуп, а как в raw data pond доставляют сырые файлики это зависит скорее от источника. есть коннекторы, есть sqoop, сейчас модно через кафку. В том то и дело, что само все равно ничего не делается и онлайн-аналитика - лукавство, всё равно. Источников миллион, и подготовить данные к горизонтальному масштабированию ничуть не менее сложная задача чем написать ETL в какой-нибудь будь ODS. Скорее наоборот, если большинство источников это RDBMS, то может и более сложно будет. Я кстати, ничего против не имею, в отличии от Евгения, но я участвовал в подобных проектах и ничего простого и дешевого там я не увидел. Под свои задачи отличная штука, но агульно все ODS переводить на эту технологию считаю неоправданным. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.10.2018, 16:41 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
tarrusВ том то и дело, что само все равно ничего не делается и онлайн-аналитика - лукавство, всё равно. делается. береться какойнить голденгейт, тот читает в риалтайме оракловый лог и пишет в кафку, хадуп/spark читает с кафки и на ходу spark ml модели считает, за одно переобучает модели. результат терминами Инмона интегрирует в application pond. tarrusИсточников миллион, и подготовить данные к горизонтальному масштабированию ничуть не менее сложная задача чем написать ETL в какой-нибудь будь ODS. Скорее наоборот, если большинство источников это RDBMS, то может и более сложно будет. терминами Инмона интегрируешь ты в application pond, причем модель application pond должна быть как можно ближе к сырым данным. в идеале у там мизерные трансформации. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.10.2018, 22:41 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
tarrus В том то и дело, что само все равно ничего не делается и онлайн-аналитика - лукавство, всё равно. Источников миллион H5N1делается. береться какойнить голденгейт, тот читает в риалтайме оракловый лог и пишет в кафку, tarrus +1 Бере т ся не просто так, а за 100500 евро. Пардон, ноль пропустил. За 1000500. А если на один из источников не хватило бабла, или какие-нить греки/индусы решили не сдаваться и работать по старинке, то и весь риал-тайм накрылся. ЗЫ: Мне голденгейт нравится, не подумайте ничего плохого :D ... |
|||
:
Нравится:
Не нравится:
|
|||
10.11.2018, 22:39 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Нашел в сети небольшую статью об отличиях даталайка и ХД - и там и там данные для пользователей нужно структурироаать и обрабатывать в ХД данные обрабатываются на входе , в даталайке -на выходе. На мой взгляд простое и удачное пояснение различий. По теме SA - это не только промежуточное хранение, но и обработка, подготовка данных. Поэтому ставить знак равенства между SA и даталайк не верно. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.11.2018, 09:34 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Полковник.На мой взгляд простое и удачное пояснение различий. вот, взяли , и в самый разгар священной войны, все... объяснили) люди только начали длиной свеого dwh меряться ... |
|||
:
Нравится:
Не нравится:
|
|||
12.11.2018, 10:10 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Полковник.Нашел в сети небольшую статью об отличиях даталайка и ХД - и там и там данные для пользователей нужно структурироаать и обрабатывать в ХД данные обрабатываются на входе , в даталайке -на выходе. На мой взгляд простое и удачное пояснение различий. По теме SA - это не только промежуточное хранение, но и обработка, подготовка данных. Поэтому ставить знак равенства между SA и даталайк не верно. Ссылочка сохранилась? Хочется добавить в копилку. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.11.2018, 11:53 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
tarrusСсылочка сохранилась? Хочется добавить в копилку. +1 дайте то - а то шо ж так заинтересовать заинтересовали зы сколько много новых слов то появилось ща озера данных скоро наверно моря появятся потом Акияны - ну по логике биг даты. маркетинг он такой :) ... |
|||
:
Нравится:
Не нравится:
|
|||
12.11.2018, 16:48 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Кстати, в Газпромнефти вовсю работает Datalake. Но там интереснее структура. В Hadoop льются сырые данные, но только те, которые требуют обработки (записи разговоров, стримы с видеокамер и т.п.). Потом из этих данных извлекается значимая информация и уже эти данные проходят контроль качества данных, происходит их обогащение и расчет показателей, после чего эти обработанные данные летят в РСУБД а оттуда - в клик. Управление метаданными в Qlik - NodeGraph. ETL для Hadoop - Informatica. Обработка данных в Hadoop - R и Mahout. Кому интересно - вот ссылка на презентации , в папке WYV 2018 лежит. Если про Qlik говорить, т.е. куда эти данные потом и извлекаются (с возможностью перехода непосредственно к "сырой" информации), то в департаменте, где работает спикер - ДРП: 250 Приложений, в одном их подразделений - 1100+ пользователей, 2300 Реализованных отчетов, 150 источников данных. Обрабатывается 20Тб данных: 2012 -> 2015 3Tb 2015 -> 2016 +6Tb 2017 + 5Tb 2018 + 8Tb + Промежуточная РСУБД к Hadoop. Очень интересная презентация. Мало у кого подобное работает, да еще и в продуктиве на такое кол-во сотрудников. И это - один из департаментов ГПН. С Уважением, Георгий. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.11.2018, 18:46 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
tarrus, Доберусь сегодня до компа дам ссылку. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.11.2018, 19:06 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
George NordicКстати, в Газпромнефти вовсю работает Datalake. Но там интереснее структура. В Hadoop льются сырые данные, но только те, которые требуют обработки (записи разговоров, стримы с видеокамер и т.п.). Потом из этих данных извлекается значимая информация и уже эти данные проходят контроль качества данных, происходит их обогащение и расчет показателей, после чего эти обработанные данные летят в РСУБД а оттуда - в клик. Управление метаданными в Qlik - NodeGraph. ETL для Hadoop - Informatica. Обработка данных в Hadoop - R и Mahout. Кому интересно - вот ссылка на презентации , в папке WYV 2018 лежит. открыл файлик, вроде там есть шанс на нечто более вменяемое. на последних страницах они рисуют что у них все источники данные в озеро льют (стр. 46) и аналитика тоже в хадупе (стр. 48). на стр. 48 даже прямо надписи "экспорт транзакционных пакетов в экосистему HADOOP" единственно не поятно что они обозвали рсубд внутри хадупа. я подозреваю это аля реляционные таблички impala, tez или sparkSQL. врядли они копируют данные в хадуп потом в рсубд, потом в R, а потом еще и в клик. люди бы смеяться начали. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.11.2018, 21:32 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Ну там взяли курс на диджитализаю, дали бабла вот люди и "работают во всю". ... |
|||
:
Нравится:
Не нравится:
|
|||
13.11.2018, 01:17 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
БумбарашНу там взяли курс на диджитализаю, дали бабла вот люди и "работают во всю". если рсубд в хадупе у них это impala, tez или sparkSQL, то в вполне адекватный дизайн. причем еще раз подтверждающий мой поинт, что те кто не в бложик пишут, а поднимают реальные data lake проекты, те обрабатывают данные перед анализом. ковыряние в сырых данных бумага стерпит, реальный проект - нет. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.11.2018, 21:25 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
H5N1БумбарашНу там взяли курс на диджитализаю, дали бабла вот люди и "работают во всю". если рсубд в хадупе у них это impala, tez или sparkSQL, то в вполне адекватный дизайн. причем еще раз подтверждающий мой поинт, что те кто не в бложик пишут, а поднимают реальные data lake проекты, те обрабатывают данные перед анализом. ковыряние в сырых данных бумага стерпит, реальный проект - нет. Было бы странно не обрабатывать данные перед анализом. Ахахааа. Данные в ХД обрабатываются перед записью. Подозреваю, что у вас нет реального опыта построения даталайк, все из презентаций берете? Если есть ответьте на простой вопрос - что и как у вас с метаданными, можете описать структуру хранения метаданных? ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2018, 07:21 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Полковник.Было бы странно не обрабатывать данные перед анализом. Ахахааа. Данные в ХД обрабатываются перед записью. Подозреваю, что у вас нет реального опыта построения даталайк, все из презентаций берете? подозреваю вы не русский. иврит родной? отмотай чуть назад увидишь что и как я читаю. потом открой свои ссылки и посмотри какие данные в дата лейке предлагают там анализировать и чем это от описанного Инмоном отличается ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2018, 09:45 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
H5N1, Ты не знаешь что в даталайке тоже должны быть метаданные? Поздравляю, господин соврамши, произошло "полное разоблачение" по Булгакову. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2018, 10:52 |
|
Data Lake как Staging Area
|
|||
---|---|---|---|
#18+
Полковник.Ты не знаешь что в даталайке тоже должны быть метаданные? Поздравляю, господин соврамши, произошло "полное разоблачение" по Булгакову. ты упомянутою мной книгу Инмона открыл? прочел? чем его application pond или "рсубд" газпромнефти отличается от твоих ссылочек по бложикам осознал ? посмотри еще раз, что предлагает анализировать Инмон и что твои ссылочки ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2018, 11:06 |
|
|
start [/forum/moderation_log.php?user_name=1C]: |
0ms |
get settings: |
8ms |
get forum list: |
14ms |
get settings: |
10ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
25ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
71ms |
get tp. blocked users: |
1ms |
others: | 5233ms |
total: | 5395ms |
0 / 0 |