|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Коллеги, нужен коллективный разум и совет. Есть, допустим, 20 различных БД - MS SQL, Oracle, PG. Источники меняются, каждый раз перестраивать DWH - мартышкин труд. Есть идея все запихать в DataLake - т.е. нужен инструмент, в который можно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных". Кто как решает данную задачу? Про PodiumData (Qlik Data Catalist) - в курсе, разбираюсь в рамках служебных обязанностей. Вопрос, кто как такую задачу решает? С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 12:13 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George Nordic, мы подключение к DL (ADLS) делали через External Data Sources и к ним External Tables, потом процедурами ETL/ELT, но это на родном SQL Server/DWH. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 13:31 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
но это была работа чисто с данными которые предварительно ADF/DataBricks готовились, управление метаданными и каталоги - это уже немного другая тема. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 13:34 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
vikkiv, спасибо! Тут действительно темная задача получается - ближе к управлению метаданными (неглубоко, просто понять что где лежит) и каталогами. Было бы интересно DL текущую структуру накрыть и проиндексировать... но не гнать же все в хадуп, в конце-то концов - это ж задвоение полное Может кто что еще использует? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2019, 14:39 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George Nordic, DL это сами данные, которые обрабатываются и в процессе обработки некоторые строят метаданные. если сами данные не планируете закидывать в систему то это уже на DL вообще не похоже ... |
|||
:
Нравится:
Не нравится:
|
|||
22.05.2019, 11:29 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George Nordicможно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных". Индексировать данные?? Все ???? Во всех базах ????? Или только метаданные??? 1-е займет столько же времени сколько и перегрузка всего. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.06.2019, 10:50 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George NordicИсточники меняются, каждый раз перестраивать DWH - мартышкин труд Они же меняются очень не часто. Раз в год одна база отвалится, две подключаться... Вам же работа нужна? ) ... |
|||
:
Нравится:
Не нравится:
|
|||
08.06.2019, 13:52 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Коллеги, давайте задачу расскажу, думаю так легче будет. Например, есть 10 министерств - МВД там, ФНС, Минтруд , Минстат и т.д. У каждого есть есть несколько баз. И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги. Строить DWH - ну так себе идея. БД растут и меняются постоянно. Т.е. скорость изменений выше, чем сможет отреагировать команда которая хранилищем занимается. Это не DataLake будет, а DataSwamp какой-то. Лить все в даталэйк - ну, тоже безумство. Я по долгу службы рюхаю вот это приобретение PodiumData . Вроде как раз для решения подобных задач и предусмотрено - анализ метаданных, "магазин" данных - натравливается на разные источники и показывает информацию по данным в сводном виде, где что лежит, насколько чистое, как часто используется. Картинки кажут красивые: Вопрос, а как сейчас решаются такие задачи? Есть ли аналоги? Инструмент, которые может подключиться к БД и выдать на-гора что где лежит? Или таки пишут DWH? С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
11.06.2019, 12:01 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George Nordic, по мне типичная задача стриминга событий и агрегации на лету. базы пишут сообщения в какой-нить мессенджинг сервис типа kafka, на другой стороне кто-то типа spark streaming читает, агрегирует и апдейтит некие агрегаты ... |
|||
:
Нравится:
Не нравится:
|
|||
11.06.2019, 19:22 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George Nordic, И что смог этот Qlik Data Catalyst ??? ... |
|||
:
Нравится:
Не нравится:
|
|||
12.06.2019, 23:00 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Ivan DurakИ что смог этот Qlik Data Catalyst ???Ну, как минимум, продать себя Qlik. Не, идея-то понятная и крутая. Сейчас будем пробовать, с чем его едят, и как. H5N1, привет! :) "Когда есть молоток, все задачи - гвозди" Нет, это не он-лайн парсинг. Структура DB более-менее стабильна. Задача - как-нибудь получить в одном месте сводную информацию, что где лежит, в идеале - еще и вытащить сами данные. У Информатики есть что-то очень похожее - Informatica Enterprise Data Catalog - никто с ним дела не имел? С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
13.06.2019, 10:09 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George NordicКоллеги, нужен коллективный разум и совет. Есть, допустим, 20 различных БД - MS SQL, Oracle, PG. Источники меняются, каждый раз перестраивать DWH - мартышкин труд. Есть идея все запихать в DataLake - т.е. нужен инструмент, в который можно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных". Кто как решает данную задачу? Alation и в паре мест IBM Data Governance Catalog. Alation лучше ) ... |
|||
:
Нравится:
Не нравится:
|
|||
17.06.2019, 05:12 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Ого, круто. Спасибо, Юр! ... |
|||
:
Нравится:
Не нравится:
|
|||
17.06.2019, 17:21 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George Nordic, А как выбудете решать задачу, если в одной базе условно поле "фамилия гражданина" называется FIO, во второй Name, в третьей Familiya, а в четвертой F561? Все равно ведь руками все это сопоставляется... ... |
|||
:
Нравится:
Не нравится:
|
|||
22.06.2019, 11:19 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
у Амазона для этого есть спец-продукт. aws glue. по-факту это краулер, который выгребает метаданные и представляет их в +- адекватном виде. потом по ним можно делать либо etl им же, либо создавать внешние таблицы, на которую натравливать что-нибудь типа athena. само собой он serverless, поэтому запуски краулеров на метаданные стоят денег. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.06.2019, 17:03 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Критик, Есть масса подобных решений - Machine Learning Data Catalogs. И да, есть решения которые парсят сами данные и выстраивают предположения об их связи, исходя из пересечения данных. Далее - можно и из самих данных сделать выводы - оценка, стоимость, рос, вес, геопозиция... Как говорит Jurii - полный ИСИН :) Вот forrester : С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
01.07.2019, 12:49 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George Nordicно не гнать же все в хадуп, в конце-то концов - это ж задвоение полное George NordicКритик, Есть масса подобных решений - Machine Learning Data Catalogs. И да, есть решения которые парсят сами данные и выстраивают предположения об их связи, исходя из пересечения данных. и чо, среди них реально есть такие что строят метаданные с разных источников не копируя сами данные на дата лейк ? прям волшебство. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.07.2019, 17:43 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
H5N1и чо, среди них реально есть такие что строят метаданные с разных источников не копируя сами данные на дата лейк ? прям волшебство.Ну. Дожили - теперь и Gartner говорит, что дата каталоги в правильных компаниях "Маст Хэв"! Augmented Data Catalogs: Now an Enterprise Must-Have for Data and Analytics Leaders Demand for data catalogs is soaring as organizations continue to struggle with finding, inventorying and analyzing vastly distributed and diverse data assets. Data and analytics leaders must investigate and adopt ML-augmented data catalogs as part of their overall data management solutions strategy. Таак, забиваем на блокчейн, срочно изучаем дата-каталоги А, по сути, прикольная оказалась технология. Но все равно надо руками прописывать доступ к каждому источнику с нормальным таким уровнем доступа, чтобы как минимум метаданные можно было вытащить, и к самим данным - доступ на чтение. Потом "данные о данных" стекаются на отдельный сервер, где они представлены в виде "магазина" данных - это я сейчас про ex-Podium Data. Потом, разумеется, применение политик и все такое, чтобы кто попало какие-нить критичные данные не нашопил. Выводится справка по данным: доступность, востребованность (насколько часто их запрашивают), размер, качество (вопрос как это считается), и содержание (аналогично). Там даже корзинка есть, как в интернет-магазинах, можно набросать себе в корзину и нажать "получить". Генерируется скрипт загрузки и выбранные данные закачиваются в BI-систему. С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
20.09.2019, 13:11 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Да Гартнер сто лет говорит о каталогах, метаданных и Logical Data Warehouse. Вот Qlik начавший говорить про data catalogs и про то, что нужно pushdown в data lakes делать - вот это реально новость :) ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2019, 00:56 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Alexander, Qlik еще и Attunity прикупил, до кучи. Он лайн репликация (Change Data Capture), выходцы их Golden Gate делали (что неудивительно). Теперь лозунг - Data-Driven Company. Не хочу сказать, что смещение фокуса, скорее - расширение линейки. В принципе, ничего сильно неожиданного нет - многие производители расширяют линейку... Но мне как-то привычнее чисто BI. Теперь вот ELT, каталоги и Big Data Indexing. Такие дела. Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
23.09.2019, 12:09 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George NordicУ каждого есть есть несколько баз. И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги. Строить DWH - ну так себе идея. БД растут и меняются постоянно. Т.е. скорость изменений выше, чем сможет отреагировать команда которая хранилищем занимается. Это не DataLake будет, а DataSwamp какой-то. Лить все в даталэйк - ну, тоже безумство. и все таки я так и не понял что за магия ваших дата каталогов позволит посчитать "какие машины зарегистрированы у тех, кто не платит налоги" без перекачки самих данных в даталейк. выглядит что эти каталоги скорее под далейк превратившийся в болото думан. что бы не утонуть окончательно в болоте описать хоть как-то свалку в данных. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.09.2019, 10:53 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George NordicAlexander, Qlik еще и Attunity прикупил, до кучи. Он лайн репликация (Change Data Capture), выходцы их Golden Gate делали (что неудивительно). Теперь лозунг - Data-Driven Company. Не хочу сказать, что смещение фокуса, скорее - расширение линейки. В принципе, ничего сильно неожиданного нет - многие производители расширяют линейку... Но мне как-то привычнее чисто BI. Теперь вот ELT, каталоги и Big Data Indexing. Такие дела. ГеоргийА кто конкретно из GoldenGate делал Attunity (я не нашел на это никаких ссылок). В Attunity много людей перешло в последнее время из Oracle в США. Но так да, из GoldenGate много людей вышло, кто сделал несколько разных CDC-движков. По поводу смещения фокуса - это нормальная и понятная история. Все расширяются. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.09.2019, 21:39 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Знакомые data scientists говорят, что такие каталоги данных (alation) очень полезны, когда новая система добавляется и можно быстро понять, что и где в них лежит. Time to market новых фич повышается ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2019, 11:14 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Alexander RyndinА кто конкретно из GoldenGate делал Attunity (я не нашел на это никаких ссылок)Мне коллеги из Attunity просто сказали, что костяк их команды - именно оттуда. Конкретно про фамилии не спрашивал. H5N1и все таки я так и не понял что за магия ваших дата каталогов позволит посчитать "какие машины зарегистрированы у тех, кто не платит налоги" без перекачки самих данных в даталейк.Выбранные данные ПЕРЕКАЧИВАЮТСЯ в ADWH по запросу. Причем, насколько я понял, есть "ранее" и "позднее" связывание: при "раннем", кроме данных, при подключении прописывается и модель связывания, и генерируется ETL, который уже связанные данные перебрасывает. При "позднем" - просто выбранные столбцы / таблицы перебрасываются в ADHW (DWH / DL / куда угодно), и уже потом, автоматом или ручками прописываешь связи между собой и с другими данные, которые уже находятся в хранилище. Более того, подобные процесс забора данных можно делать не периодической основе / триггеру / инкрементом забирать. Т.е. сценариев использования много, насколько я понял это очень эффективно работает когда есть "кладбище / болото" данных, и есть отдельное "чистое" хранилище / песочница / Аналитическое хранилище, в которое необходимо эти данные добавлять. Так как технология ориентирована на пользователей, то я склоняюсь к песочнице / аналитической песочнице: вот вам, господа "гражданские аналитики" каталог, вот ваше аналитическое хранилище, грузите и работайте. А мы потом проверим что получилось и выльем в граните. Или не выльем С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2019, 12:06 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George Nordic, так и не вижу ответа на вопрос. предположим в ADWH пусто, никто еще ничего не заказывал перекачать. мне нужно "какие машины зарегистрированы у тех, кто не платит налоги" (тм) откуда у каталога возьмется такая информация? я бы понял если бы с олтп источника вытягиваются данные в хадуп, где по пути считают еще и агрегации для этого каталога. но если есть лишь олтп источник и каталог, то кто и которое время посчитал "какие машины зарегистрированы у тех, кто не платит налоги" ? ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2019, 13:59 |
|
|
start [/forum/topic.php?desktop=1&fid=48&tid=1856536]: |
0ms |
get settings: |
22ms |
get forum list: |
12ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
46ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
676ms |
get tp. blocked users: |
2ms |
others: | 3122ms |
total: | 3901ms |
0 / 0 |