Data Lake как Staging Area / OLAP и DWH

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Data Lake как Staging Area

25 сообщений из 158, страница 2 из 7

все

Data Lake как Staging Area

#39721657

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Критикя считал, что Data Lake это все это в одном месте,
то есть такая мегамусорка
дикие вы какие-то там, за мкадом. неужели в ваших краях нет ни банков ни страховщиков ? как бы те кто считает деньги с мегамусорками деньги считали ?

.ЕвгенийА-аа, все понятно! Datalake по определению бывает только поверх Hadoop, поэтому мне надо запихать xml-ки в хадуп и вот тогда озеро украсит мой повседневный пейзаж ИТ-систем! Не было у меня ни малейшей нужды в хадупе - а вот появилась!
нет уж, делай как делал раньше. и желательно на какой-нить экзадате. иначе людям не понятно зачем мне платить в пятеро больше

...

Рейтинг:

0 / 0

23.10.2018, 19:37

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39721748

.Евгений

Участник

Сообщения: 385

Рейтинг: 0 / 0

H5N1сомневаюсь. даталейки из ентерпрайза и банков пошли, а там все данные хорошо структурированы. подозреваю банку в принципе что-то не структурированное грузить смертный приговор.
"In broad terms, data lakes are marketed as enterprisewide data management platforms for analyzing disparate sources of data in its native format," said Nick Heudecker, research director at Gartner. "The idea is simple: instead of placing data in a purpose-built data store, you move it into a data lake in its original format. This eliminates the upfront costs of data ingestion, like transformation. Once data is placed into the lake, it's available for analysis by everyone in the organization."
Что такое "native", "original format", когда этих форматов - много, по числу источников?
H5N1- что бы эффективно обрабатывать данные там где они лежат, а не таскать без конца данные из субд во всякие питоны, R и sas data майнеры. в обычной субд нет даже базовых алгоритмов анализа, все что сложне AVG() требует перекачки данных.
Во-первых, я затрудняюсь представить эффективную обработку грязных данных без их предварительной очистки. Во-вторых, мне сложно называть эффективным многократное выполнение одних и тех же трансформаций.
H5N1- что бы пользователь получил привычные данные в человеческом виде, а не набор мутных фактов, которые еще толпа инженеров нужна, что бы правильно заджоинить.
Это денормализация, а не Data Lake.
H5N1- имея резиновые ресурсы, многие вещи можно тупо и в лоб проворачивать. там где рсубд хранилище будет выдумывать мутные алгоритмы исправлений косяка, на хадупах просто перестроят витрину, не вникая даже в суть проблемы.
Черт побери, как эта "резина" должна развращать и отбивать желание думать...
H5N1- что бы с какой-нить ESB в реалтайме данные читать, а не по старинке батчами
У меня есть скромный сервер ETL на виртуальной машине, который среди прочего обрабатывает поток из кролика в 200 сообщений за секунду, максимально тянет почти тысячу. Обрабатывает поток - это значит читает сообщения, пишет в БД xml, затем пишет в БД теги параллельно с отправкой кролику подтверждений. Задержка - несколько секунд, реалтайм ненастоящий, но достаточно похоже. И никакого хадупа, только SSIS и немного умения им пользоваться.
H5N1нет уж, делай как делал раньше. и желательно на какой-нить экзадате. иначе людям не понятно зачем мне платить в пятеро больше
Пальцем в небо: я предпочитаю минимальные средства с максимальным выхлопом. Не то, чтобы я пугался большого энтерпрайза - работал в сбере с Терадатой, с DB2 for i - в другом банке. Но предпочитаю все же маленький энтерпрайз.

...

Рейтинг:

0 / 0

23.10.2018, 23:39

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39721803

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

.Евгений "In broad terms, data lakes are marketed as enterprisewide data management platforms for analyzing disparate sources of data in its native format," said Nick Heudecker, research director at Gartner. "The idea is simple: instead of placing data in a purpose-built data store, you move it into a data lake in its original format. This eliminates the upfront costs of data ingestion, like transformation. Once data is placed into the lake, it's available for analysis by everyone in the organization."
Что такое "native", "original format", когда этих форматов - много, по числу источников?

это булшит от маркеторлога, для маркетолога. данные энтерпрайза это персональные данные, сенсетив фин данные, показывать их в полученном виде любому сотруднику попросту уголовное преступление.

.ЕвгенийВо-первых, я затрудняюсь представить эффективную обработку грязных данных без их предварительной очистки. Во-вторых, мне сложно называть эффективным многократное выполнение одних и тех же трансформаций.

анализировать грязные данные запрещает закон, в любом случае прежде чем кому либо показать данные будут обработаны и загружены во что-то типа хранилища.

.ЕвгенийЧерт побери, как эта "резина" должна развращать и отбивать желание думать...

это то что позволяет использовать типичного сотрудника энтерпраза, не отвлекая тех кто имеет мозг. нет никакого смысла привлекать инженера, если задачу в лоб решит манагер и индус совершенно штатной перестройкой витрины

.ЕвгенийУ меня есть скромный сервер ETL на виртуальной машине, который среди прочего обрабатывает поток из кролика в 200 сообщений за секунду, максимально тянет почти тысячу. Обрабатывает поток - это значит читает сообщения, пишет в БД xml, затем пишет в БД теги параллельно с отправкой кролику подтверждений. Задержка - несколько секунд, реалтайм ненастоящий, но достаточно похоже. И никакого хадупа, только SSIS и немного умения им пользоваться.

да, распарсить xml и еще и записать в субд за несколько секунд это несомненно успех. только это убило риалтайм аналитику. теперь данные похоронены в тупом сторидже, из которого их теперь снова нужно доставать и гнать на скоринги, фрауд детекшен и прочий анализ. реалтайм аналитика все таки немного о другом.

...

Рейтинг:

0 / 0

24.10.2018, 07:35

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39721858

.Евгений

Участник

Сообщения: 385

Рейтинг: 0 / 0

H5N1это булшит от маркеторлога, для маркетолога. данные энтерпрайза это персональные данные, сенсетив фин данные, показывать их в полученном виде любому сотруднику попросту уголовное преступление.
Вы знаете, у меня нарождается подозрение, что вы под даталейком подразумеваете что-то свое, принципиально отличное от понимания авторов термина и от общепринятого понимания. Прошу, развейте это подозрение.
H5N1анализировать грязные данные запрещает закон,
Гы. Хотел бы я такой закон... Простите, а что вы понимаете под грязными данными?
H5N1в любом случае прежде чем кому либо показать данные будут обработаны и загружены во что-то типа хранилища.
Еще интереснее. Получается, что в вашем личном понимании Datalake нечто вроде ODS?
H5N1это то что позволяет использовать типичного сотрудника энтерпраза, не отвлекая тех кто имеет мозг. нет никакого смысла привлекать инженера, если задачу в лоб решит манагер и индус совершенно штатной перестройкой витрины
С одной стороны это так, с другой - это поощряет уход от проблемы вместо ее решения, заметание тараканов под скатерть. Главное - успеть отскочить до момента, когда они попрут наружу неудержимым потоком.
H5N1да, распарсить xml и еще и записать в субд за несколько секунд это несомненно успех. только это убило риалтайм аналитику.
Никто ее не убивал. Эта аналитика вполне неплохо ложится на поток данных, которым оперируют ETL решения. Далее нужно либо самому реализовать окна и агрегацию, либо слать данные во что-нибудь стороннее типа StreamInsight.

Моя позиция заключается в следующем: есть СУБД, которые транзакционно работают с пачками. Когда размер пачек начал выходить из-под контроля, большинство разработчиков начало шардировать данные. Я же предпочел обратиться за помощью к средствам ETL, которые нетранзакционно работают с потоком. На мой взгляд, СУБД и ETL компенсируют слабые стороны и потому хорошо дополняют друг друга, когда есть возможность допилить их функционал.

...

Рейтинг:

0 / 0

24.10.2018, 10:00

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39721865

churupaha

Участник

Откуда: Краснодар

Сообщения: 990

Рейтинг: 0 / 0

а мне вот пофиг - куда рынок, туда и я... (коммент ко всем комментам)

...

Рейтинг:

0 / 0

24.10.2018, 10:08

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39721873

Полковник.

Участник

Сообщения: 1 648

Рейтинг: 0 / 0

Даталайк пытаются создать там, где кривыми руками построено хоронилеще данных, от которого пользователям никакого толку. Преподносится это так - хранилища данных себя не оправдали, будем строить даталайк. От того, что кривые руки будут теперь строить даталайк ничего не меняется.
Ахаха

...

Рейтинг:

0 / 0

24.10.2018, 10:21

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39721893

.Евгений

Участник

Сообщения: 385

Рейтинг: 0 / 0

Полковник.Даталайк пытаются создать там, где кривыми руками построено хоронилеще данных, от которого пользователям никакого толку. Преподносится это так - хранилища данных себя не оправдали, будем строить даталайк. От того, что кривые руки будут теперь строить даталайк ничего не меняется.
Ахаха
Стоит отметить, что "хоронилище" есть неофициальный, нечасто используемый термин.
В то же время наряду с Datalake существует устоявшийся термин Dataswamp. Это «ж-ж-ж» — неспроста!

...

Рейтинг:

0 / 0

24.10.2018, 10:38

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39721941

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

.ЕвгенийВы знаете, у меня нарождается подозрение, что вы под даталейком подразумеваете что-то свое, принципиально отличное от понимания авторов термина и от общепринятого понимания. Прошу, развейте это подозрение.

ваша проблема в том что вы хаваете маркетинговый булшит, от людей которые энтерпрайза не видели. поверьте, в реальных мире ни один банк не сможет "move it into a data lake in its original format"

.ЕвгенийH5N1анализировать грязные данные запрещает закон,
Гы. Хотел бы я такой закон... Простите, а что вы понимаете под грязными данными?

в европе это GDPR. он в принципе запрещает хранить некоторые данные типа медицинских, данные о расе. если с клиентом работа завершена, ты обязан анонимизировать его персональные данные. если прошли года, ты обязан уничтожить часть данных. это требование закона.

.ЕвгенийЕще интереснее. Получается, что в вашем личном понимании Datalake нечто вроде ODS?

ODS это субд, она не хранит истории. даталейк это файлики. просто файлики на S3, hdfs, но уже более менее обработанные, зачастую колончатой структуры типа parquet формата. по ним можно гонять SQL квери из спарка или импалы.

.ЕвгенийНикто ее не убивал. Эта аналитика вполне неплохо ложится на поток данных, которым оперируют ETL решения. Далее нужно либо самому реализовать окна и агрегацию, либо слать данные во что-нибудь стороннее типа StreamInsight.

угу. стандартный подход - забить на риалтайм, записать в субд и потом тащить копию данных из субд сторонним питонам, R и прочему ML.

Полковник.Даталайк пытаются создать там, где кривыми руками построено хоронилеще данных, от которого пользователям никакого толку. Преподносится это так - хранилища данных себя не оправдали, будем строить даталайк. От того, что кривые руки будут теперь строить даталайк ничего не меняется.
Ахаха
топовые банки и фин институты давно мигрировали на даталейки, в европе второго эшелона канторы запускают. можно хихикать, но у них как бы все получается.

...

Рейтинг:

0 / 0

24.10.2018, 11:36

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39721968

.Евгений

Участник

Сообщения: 385

Рейтинг: 0 / 0

H5N1ваша проблема в том что вы хаваете маркетинговый булшит, от людей которые энтерпрайза не видели. поверьте, в реальных мире ни один банк не сможет "move it into a data lake in its original format"
Прошу, не надо переводить стрелки на мои проблемы, действительные или мнимые. Я задал просто вопрос: на чем основано ваше понимание Datalake? Документы, стандарты, статьи классиков? Или обычная жизнь, когда вы сотворили нечто и решили назвать это даталейком?
H5N1в европе это GDPR. он в принципе запрещает хранить некоторые данные типа медицинских, данные о расе. если с клиентом работа завершена, ты обязан анонимизировать его персональные данные. если прошли года, ты обязан уничтожить часть данных. это требование закона.
Понятия персональных и грязных данных не соотносятся никак. Пожалуйста, прочтите общепринятые определения грязных данных.
H5N1ODS это субд, она не хранит истории. даталейк это файлики. просто файлики на S3, hdfs, но уже более менее обработанные, зачастую колончатой структуры типа parquet формата. по ним можно гонять SQL квери из спарка или импалы.
Даталейк - это ODS на основе хадуповских файликов?
H5N1угу. стандартный подход - забить на риалтайм, записать в субд и потом тащить копию данных из субд сторонним питонам, R и прочему ML.
Еще раз обращаю внимание на отличие ETL от СУБД. А именно: процесс ETL не скован транзакциями и не обязан синхронно записывать данные в БД (если не имеется соответствующих требований по консистентности, надежности получения/хранения и т.п.) В частности, у меня синхронность ограничена обменом с шиной, вся остальная обработка ведется асинхронно. Если я добавлю к парсингу xml отправку на интерфейс аналитического решения (на какой-нибудь сервис), то ничего принципиально не изменится.
H5N1топовые банки и фин институты давно мигрировали на даталейки, в европе второго эшелона канторы запускают. можно хихикать, но у них как бы все получается.
Прежде всего я не уверен, что в европе под даталейком понимают то же, что и вы.

...

Рейтинг:

0 / 0

24.10.2018, 11:58

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722019

Полковник.

Участник

Сообщения: 1 648

Рейтинг: 0 / 0

H5N1,

Предпочитаю всяким даталайкам гибридные решения ,- если у меня структурированные данные, то они идут в хранилище данных на уровень RDW если у меня есть связанные с ним не структурированные данные, то пусть лежат рядом в Hadoop. Как то так.

А валить в кучу все три вида данных - структурированные, слабоструктурировпнные и неструктурированные , без обработки и контроля, гордо зазвать эту помойку даталайкам, потом запилить сверху обычное хранилище по Кимбалу. Это, извините, плохо пахнет.

По этому то я с bi и ушел, когда прочитал постановку задачи - "парадигма ХД не оправдала ожиданий , поэтому необходимо переходить на гибкую парадигму даталайк" Понял, что нормально й работы в этой области больше нет.

...

Рейтинг:

0 / 0

24.10.2018, 12:36

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722026

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

авторПрежде всего я не уверен, что в европе под даталейком понимают то же, что и вы
да тоже самое понимают - хадупо-свалка

...

Рейтинг:

0 / 0

24.10.2018, 12:42

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722094

Alex_496

Участник

Откуда: https://www.dvbi.ru

Сообщения: 2 727

Рейтинг: 0 / 0

H5N1,

авторв европе это GDPR. он в принципе запрещает хранить некоторые данные типа медицинских, данные о расе. если с клиентом работа завершена, ты обязан анонимизировать его персональные данные. если прошли года, ты обязан уничтожить часть данных. это требование закона.

согласно требованиям FDA пациенты в прикладных информационных системах анонимизируются изначально.
На рандомизационный номер пациента записываются данные о дате рождения, поле, расе и т.п.
Данные хранятся десятилетиями, причем на электронных носителях в разных зданиях (защита от пожара).
А в прошлом году при прохождении зарубежного аудита нам был задан вопрос: помимо CD-дисков на чем архив есть? Оказалось, что аудитор имел ввиду, что спустя годы, когда CD-приводов уже не будет в обиходе, то как вы сможете предоставить архивные данные для прочтения.

...

Рейтинг:

0 / 0

24.10.2018, 13:52

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722287

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

.ЕвгенийПрошу, не надо переводить стрелки на мои проблемы, действительные или мнимые. Я задал просто вопрос: на чем основано ваше понимание Datalake? Документы, стандарты, статьи классиков? Или обычная жизнь, когда вы сотворили нечто и решили назвать это даталейком?

пошел почитать, первое что выдал поиск упомянутый ужо Инмон. на классика тянет? пишет конечно мутно, но в целом здраво. предлагает raw data грузить в три data ponds после чего raw data в утиль. собственно то о чем я и говорю, серьезная кантора просто по полиси и законодательству сырые данные хранить не может

Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump
by Bill Inmon
Published by Technics Publications, 2016

Chapter 4 Data Ponds

An interesting architectural question is: once raw data flows from the raw data pond into the data pond, should the raw data remain in the raw data pond? The answer is no. Once raw data passes from the raw data pond to the analog data pond, the application data pond, or the textual data pond, it is best to remove the source data from the raw data pond. The raw data has already served its purpose and it would be extremely rare for analytical processing to ever be performed in the raw data pond.
...
Chapter 7
Application Data Pond

It is normal for application-based data to be entered into the application data pond in a standard relational database format. Most applications have data stored in a row and column format. So application data will usually be stored and transported into the application data pond in this standard database format.

.ЕвгенийЕще раз обращаю внимание на отличие ETL от СУБД. А именно: процесс ETL не скован транзакциями и не обязан синхронно записывать данные в БД (если не имеется соответствующих требований по консистентности, надежности получения/хранения и т.п.) В частности, у меня синхронность ограничена обменом с шиной, вся остальная обработка ведется асинхронно. Если я добавлю к парсингу xml отправку на интерфейс аналитического решения (на какой-нибудь сервис), то ничего принципиально не изменится.

да молодцы, молодцы. гарантируете мне стабильный доход выше рынка. я одобряю.
просто был вопрос, на кой прослойка. а вот у нее есть сугубо технические фичи. в том числе возможность подключить серьезные либы типа гугло тензорфлоу прямо в том в том же процессе, что и etl процесс, при этом запись результата на hdfs тоже все тот же процеc. вся магия происходит в одной в одной и той же jvm.
я в курсе, что можно по другому, но если вопрос зачем прокладка, есть сугубо технический ответ. и фич там много.

...

Рейтинг:

0 / 0

24.10.2018, 16:22

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722295

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Alex_496согласно требованиям FDA пациенты в прикладных информационных системах анонимизируются изначально.
На рандомизационный номер пациента записываются данные о дате рождения, поле, расе и т.п.
Данные хранятся десятилетиями, причем на электронных носителях в разных зданиях (защита от пожара).
А в прошлом году при прохождении зарубежного аудита нам был задан вопрос: помимо CD-дисков на чем архив есть? Оказалось, что аудитор имел ввиду, что спустя годы, когда CD-приводов уже не будет в обиходе, то как вы сможете предоставить архивные данные для прочтения.
ну те кто хранит данные пациентов думаю дата лейки не заводят. лично я видел как аудит натянул финкантору за хранение счетов, выставленные от каких-то клиник. в счетах были какие-то сенсетив данные по диагнозу, процедурам. GDPR за такое расстреливает на месте. подозреваю какие-нить страховые выплаты GDPR требует как-то особо обрабатывать

...

Рейтинг:

0 / 0

24.10.2018, 16:28

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722321

tarrus

Участник

Откуда: Bergen

Сообщения: 806

Рейтинг: 0 / 0

H5N1ODS это субд, она не хранит истории. даталейк это файлики. просто файлики на S3, hdfs, но уже более менее обработанные, зачастую колончатой структуры типа parquet формата. по ним можно гонять SQL квери из спарка или импалы.

А кто эти файлики подготовил-то? Тем более в реальном времени
.Евгений
топовые банки и фин институты давно мигрировали на даталейки, в европе второго эшелона канторы запускают. можно хихикать, но у них как бы все получается.

Ну-ну. Давайте опять сказки про прогрессивную Европу, где половина банков работает на системах из 80х и 90х с обертками из веб-сервисов.

...

Рейтинг:

0 / 0

24.10.2018, 16:52

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722339

tarrus

Участник

Откуда: Bergen

Сообщения: 806

Рейтинг: 0 / 0

H5N1Alex_496согласно требованиям FDA пациенты в прикладных информационных системах анонимизируются изначально.
На рандомизационный номер пациента записываются данные о дате рождения, поле, расе и т.п.
Данные хранятся десятилетиями, причем на электронных носителях в разных зданиях (защита от пожара).
А в прошлом году при прохождении зарубежного аудита нам был задан вопрос: помимо CD-дисков на чем архив есть? Оказалось, что аудитор имел ввиду, что спустя годы, когда CD-приводов уже не будет в обиходе, то как вы сможете предоставить архивные данные для прочтения.
ну те кто хранит данные пациентов думаю дата лейки не заводят. лично я видел как аудит натянул финкантору за хранение счетов, выставленные от каких-то клиник. в счетах были какие-то сенсетив данные по диагнозу, процедурам. GDPR за такое расстреливает на месте. подозреваю какие-нить страховые выплаты GDPR требует как-то особо обрабатывать

Когда успели? Правила GDPR вступили в силу в мае и то не для всей Европы. Первые наказания начнуться не скоро. Вы свой опыт на все Европу экстраполировать пытаетесь.

...

Рейтинг:

0 / 0

24.10.2018, 17:15

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722355

Бумбараш

Участник

Откуда: никем не победимая, самая любимая

Сообщения: 1 090

Рейтинг: 0 / 0

ну в банках в хадупах большинство данные структурированы. Потому что там все источники структурированы. Это такой ods только в hdfs.
Почему при перекладке odsа из реляционной базы в хдфс у многих начинает рваться пукан - непонятно.

...

Рейтинг:

0 / 0

24.10.2018, 17:28

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722360

tarrus

Участник

Откуда: Bergen

Сообщения: 806

Рейтинг: 0 / 0

Бумбарашну в банках в хадупах большинство данные структурированы. Потому что там все источники структурированы. Это такой ods только в hdfs.
Почему при перекладке odsа из реляционной базы в хдфс у многих начинает рваться пукан - непонятно.

Наоборот, многие были бы и рады что-то новое поковырять, но вот экономическое обоснование супер шаткое получается. Где бенефит до сих пор не ясно. Наверняка он есть на каких-то проектах, но где чек лист по которому можно проверить, что лучше в данной ситуации БД или файлики.

...

Рейтинг:

0 / 0

24.10.2018, 17:38

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722406

.Евгений

Участник

Сообщения: 385

Рейтинг: 0 / 0

H5N1пошел почитать, первое что выдал поиск упомянутый ужо Инмон. на классика тянет? пишет конечно мутно, но в целом здраво. предлагает raw data грузить в три data ponds после чего raw data в утиль. собственно то о чем я и говорю, серьезная кантора просто по полиси и законодательству сырые данные хранить не может
Это все относилось бы к теме, не будь (по Инмону) все data ponds частями DataLake. Raw data pond - просто промежуточный слой, аналог Staging для ХД. Другие авторы предлагают другие принципы разделения (например, governed, lightly governed и ungoverned). Никто (вроде бы) не отрицает нужды в метаданных, но все (опять же вроде бы) избегают упоминания о трансформации данных (хотя грань между этими процессами довольно зыбка).
H5N1да молодцы, молодцы. гарантируете мне стабильный доход выше рынка. я одобряю.
просто был вопрос, на кой прослойка. а вот у нее есть сугубо технические фичи. в том числе возможность подключить серьезные либы типа гугло тензорфлоу прямо в том в том же процессе, что и etl процесс, при этом запись результата на hdfs тоже все тот же процеc. вся магия происходит в одной в одной и той же jvm.
я в курсе, что можно по другому, но если вопрос зачем прокладка, есть сугубо технический ответ. и фич там много.
Действительно, зачем идти по прямому пути - подключать либы и передавать им прогружаемые данные напрямую из оперативной памяти? Нет, надо обязательно разлить озеро и поставить в него слона, попутно закупив уйму железа и наняв команду консультантов со стабильным доходом выше рынка.

P.S. Хранение данных в БД (особенно блобов) действительно сильно ограничивает скорость чтения. Однако никто не говорил, что архив принципиально невозможно хранить в файлах. Средства ETL умеют работать и с тем, и с другим. Главное, чтобы задача решалась потоковой обработкой.

...

Рейтинг:

0 / 0

24.10.2018, 18:25

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722443

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

tarrusКогда успели? Правила GDPR вступили в силу в мае и то не для всей Европы. Первые наказания начнуться не скоро. Вы свой опыт на все Европу экстраполировать пытаетесь.
GDPR это про европу. там принято приглашать аудит до того как власти натянут и пока есть время исправить.

tarrusНаоборот, многие были бы и рады что-то новое поковырять, но вот экономическое обоснование супер шаткое получается. Где бенефит до сих пор не ясно. Наверняка он есть на каких-то проектах, но где чек лист по которому можно проверить, что лучше в данной ситуации БД или файлики.
24 ядра экзадаты стоят пол миллионна зеленых. реально нужны еще какие-то обоснования?

.ЕвгенийЭто все относилось бы к теме, не будь (по Инмону) все data ponds частями DataLake. Raw data pond - просто промежуточный слой, аналог Staging для ХД. Другие авторы предлагают другие принципы разделения (например, governed, lightly governed и ungoverned). Никто (вроде бы) не отрицает нужды в метаданных, но все (опять же вроде бы) избегают упоминания о трансформации данных (хотя грань между этими процессами довольно зыбка).

ложечки нашлись, но осадочек остался. кто как и что называет дел десятое, важно что даталейк не про сырые дампы. серьезной канторе их попросту запрещено хранить.

.ЕвгенийДействительно, зачем идти по прямому пути - подключать либы и передавать им прогружаемые данные напрямую из оперативной памяти? Нет, надо обязательно разлить озеро и поставить в него слона, попутно закупив уйму железа и наняв команду консультантов со стабильным доходом выше рынка.

заинтриговал. давай, рассказывай, как ты собрался своему SSIS прикручивать тензорфлоу "и передавать им прогружаемые данные напрямую из оперативной памяти", причем хотелось бы еще послушать как это должно работать в параллель и отказоустойчиво.
и еще интересно было бы послушать как результат записывать в субд ? по ODBC ? по нетворку ?

...

Рейтинг:

0 / 0

24.10.2018, 19:09

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722460

tarrus

Участник

Откуда: Bergen

Сообщения: 806

Рейтинг: 0 / 0

H5N1
tarrusНаоборот, многие были бы и рады что-то новое поковырять, но вот экономическое обоснование супер шаткое получается. Где бенефит до сих пор не ясно. Наверняка он есть на каких-то проектах, но где чек лист по которому можно проверить, что лучше в данной ситуации БД или файлики.
24 ядра экзадаты стоят пол миллионна зеленых. реально нужны еще какие-то обоснования?

В скольких проектах всё это реально нужно? Может у вас тоже не нужно было, поэтому и заменили не понятно на что.

В Европе больше 90 процентов предприятий и соответственно проектов это малый и средний бизнес. В среднем бизнесе всё это не нужно, а в малом и BI не представлен почти.

Вы же утверждаете, что все, кто не в даталейке - те ретрограды. Я утверждаю, что рынок даталейков в количестве проектов ничтожен. Потому что те у кого данных до 1ТБ за десять дел и есть те самые 90-95% рынка. И этим 95% не нужна ни Экзодата ни даталейк.

...

Рейтинг:

0 / 0

24.10.2018, 19:45

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722486

.Евгений

Участник

Сообщения: 385

Рейтинг: 0 / 0

H5N1.ЕвгенийЭто все относилось бы к теме, не будь (по Инмону) все data ponds частями DataLake. Raw data pond - просто промежуточный слой, аналог Staging для ХД. Другие авторы предлагают другие принципы разделения (например, governed, lightly governed и ungoverned). Никто (вроде бы) не отрицает нужды в метаданных, но все (опять же вроде бы) избегают упоминания о трансформации данных (хотя грань между этими процессами довольно зыбка).

ложечки нашлись, но осадочек остался. кто как и что называет дел десятое, важно что даталейк не про сырые дампы. серьезной канторе их попросту запрещено хранить.
Повторяю простым языком: Datalake - это сырые данные. Разделенные на несколько частей в зависимости от структурированности и актуальности, а также слегка обогащенные метаданными. Но все равно сырые, никак не поджаренные с корочкой, как в ХД.
Покажите, где Инмон написал иное?
H5N1заинтриговал. давай, рассказывай, как ты собрался своему SSIS прикручивать тензорфлоу "и передавать им прогружаемые данные напрямую из оперативной памяти", причем хотелось бы еще послушать как это должно работать в параллель и отказоустойчиво.
и еще интересно было бы послушать как результат записывать в субд ? по ODBC ? по нетворку ?
К SSIS я бы прикручивать тензорфлоу не стал. Попробовал бы Информатику, Таленд, Пентахо. Все они умеют выполнять произвольные (ну почти произвольные) скрипты на джаве с подключением сторонних библиотек, передавать и получать наборы данных как минимум со стандартными компонентами (источниками, приемниками, трансформациями), как максимум - напрямую.Честно скажу, что прямой обмен реализовывал только в SSIS. Параллельно работают несколько пакетов разного назначения, обмениваются данными друг с другом, с шиной и БД. Отказоустойчивость - в рамках требований маленького энтерпрайза.

...

Рейтинг:

0 / 0

24.10.2018, 21:42

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722487

Роман Дынник

Участник

Сообщения: 3 170

Рейтинг: 0 / 0

Многие все еще не понимают что Staging Area и ODS в Data Lake это НЕ обязательно Hadoop-based решение, а сама концепция Data Lake это не тоже самое что Hadoop...

...

Рейтинг:

0 / 0

24.10.2018, 21:48

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722513

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

.ЕвгенийПовторяю простым языком: Datalake - это сырые данные. Разделенные на несколько частей в зависимости от структурированности и актуальности, а также слегка обогащенные метаданными. Но все равно сырые, никак не поджаренные с корочкой, как в ХД.
Покажите, где Инмон написал иное?

твоя проблема в том что ты не инженер, тебе манагер гартнера сказал и все. ты веруешь в ерунду, поскольку это хорошо ложиться на твою картинку мира, где в даталейках плавают дураки. а техническую лит-ру ты открывать и не станешь. она же обрушить уютные представления может. ну нафиг нудятину Инмонов читать, манагер гартнера то лучше. с любой стороны.

Chapter 7 Application Data PondIf data finds its way into the application data pond in an integrated state, the organization is lucky. If data finds its way into the application data pond in an unintegrated state (which is the normal case) the organization must transform the data after it has entered the application data pond. This transformation step is very similar to conditioning for the analog data pond. If data is to be meaningfully used for analysis in the application data pond, the transformation of data into an integrated state is absolutely necessary. There are many reasons for the transformation and integration of application data pond data. Consider the following set of transformations, as seen in Fig 7.5. The different applications have gender encoding. In order to make the analysis consistent, the application data needs to be transformed into a consistent definition of gender. The same considerations hold true for measurement of distance. Inches and feet and yards need to be converted to centimeters if consistent and meaningful analysis is to be done.

...

Рейтинг:

0 / 0

24.10.2018, 23:11

| Ответить | Цитировать | Написать

Data Lake как Staging Area

#39722524

Бумбараш

Участник

Откуда: никем не победимая, самая любимая

Сообщения: 1 090

Рейтинг: 0 / 0

tarrusБумбарашну в банках в хадупах большинство данные структурированы. Потому что там все источники структурированы. Это такой ods только в hdfs.
Почему при перекладке odsа из реляционной базы в хдфс у многих начинает рваться пукан - непонятно.

Наоборот, многие были бы и рады что-то новое поковырять, но вот экономическое обоснование супер шаткое получается. Где бенефит до сих пор не ясно.
ээ. Это как бэ и делают только из экономических обоснований - потому что это хадуп бесплатный.

...

Рейтинг:

0 / 0

25.10.2018, 00:00

| Ответить | Цитировать | Написать

25 сообщений из 158, страница 2 из 7

все

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Data Lake как Staging Area

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=49&msg=39722339&tid=1857084]:	0ms
get settings:	8ms
get forum list:	18ms
check forum access:	3ms
check topic access:	3ms
track hit:	44ms
get topic data:	10ms
get forum data:	2ms
get page messages:	67ms
get tp. blocked users:	1ms
others:	250ms

total:	406ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы