Гость
Map
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как включить БД в DataLake? / 25 сообщений из 35, страница 1 из 2
21.05.2019, 12:13
    #39815736
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
Коллеги, нужен коллективный разум и совет.

Есть, допустим, 20 различных БД - MS SQL, Oracle, PG.
Источники меняются, каждый раз перестраивать DWH - мартышкин труд. Есть идея все запихать в DataLake - т.е. нужен инструмент, в который можно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных".

Кто как решает данную задачу?

Про PodiumData (Qlik Data Catalist) - в курсе, разбираюсь в рамках служебных обязанностей. Вопрос, кто как такую задачу решает?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
21.05.2019, 13:31
    #39815780
vikkiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George Nordic,

мы подключение к DL (ADLS) делали через External Data Sources и к ним External Tables, потом процедурами ETL/ELT, но это на родном SQL Server/DWH.
...
Рейтинг: 0 / 0
21.05.2019, 13:34
    #39815784
vikkiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
но это была работа чисто с данными которые предварительно ADF/DataBricks готовились,
управление метаданными и каталоги - это уже немного другая тема.
...
Рейтинг: 0 / 0
21.05.2019, 14:39
    #39815838
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
vikkiv, спасибо! Тут действительно темная задача получается - ближе к управлению метаданными (неглубоко, просто понять что где лежит) и каталогами. Было бы интересно DL текущую структуру накрыть и проиндексировать... но не гнать же все в хадуп, в конце-то концов - это ж задвоение полное

Может кто что еще использует?
...
Рейтинг: 0 / 0
22.05.2019, 11:29
    #39816287
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George Nordic,

DL это сами данные, которые обрабатываются и в процессе обработки некоторые строят метаданные. если сами данные не планируете закидывать в систему то это уже на DL вообще не похоже
...
Рейтинг: 0 / 0
07.06.2019, 10:50
    #39823896
Ivan Durak
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George Nordicможно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных".
Индексировать данные?? Все ???? Во всех базах ?????
Или только метаданные???
1-е займет столько же времени сколько и перегрузка всего.
...
Рейтинг: 0 / 0
08.06.2019, 13:52
    #39824420
Критик
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George NordicИсточники меняются, каждый раз перестраивать DWH - мартышкин труд

Они же меняются очень не часто.
Раз в год одна база отвалится, две подключаться...
Вам же работа нужна? )
...
Рейтинг: 0 / 0
11.06.2019, 12:01
    #39825272
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
Коллеги, давайте задачу расскажу, думаю так легче будет.

Например, есть 10 министерств - МВД там, ФНС, Минтруд , Минстат и т.д.
У каждого есть есть несколько баз.
И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги.

Строить DWH - ну так себе идея. БД растут и меняются постоянно. Т.е. скорость изменений выше, чем сможет отреагировать команда которая хранилищем занимается. Это не DataLake будет, а DataSwamp какой-то.

Лить все в даталэйк - ну, тоже безумство.

Я по долгу службы рюхаю вот это приобретение PodiumData . Вроде как раз для решения подобных задач и предусмотрено - анализ метаданных, "магазин" данных - натравливается на разные источники и показывает информацию по данным в сводном виде, где что лежит, насколько чистое, как часто используется. Картинки кажут красивые:



Вопрос, а как сейчас решаются такие задачи?

Есть ли аналоги? Инструмент, которые может подключиться к БД и выдать на-гора что где лежит?

Или таки пишут DWH?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
11.06.2019, 19:22
    #39825581
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George Nordic,

по мне типичная задача стриминга событий и агрегации на лету. базы пишут сообщения в какой-нить мессенджинг сервис типа kafka, на другой стороне кто-то типа spark streaming читает, агрегирует и апдейтит некие агрегаты
...
Рейтинг: 0 / 0
12.06.2019, 23:00
    #39825869
Ivan Durak
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George Nordic,
И что смог этот Qlik Data Catalyst ???
...
Рейтинг: 0 / 0
13.06.2019, 10:09
    #39825992
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
Ivan DurakИ что смог этот Qlik Data Catalyst ???Ну, как минимум, продать себя Qlik. Не, идея-то понятная и крутая. Сейчас будем пробовать, с чем его едят, и как.

H5N1, привет! :) "Когда есть молоток, все задачи - гвозди" Нет, это не он-лайн парсинг. Структура DB более-менее стабильна. Задача - как-нибудь получить в одном месте сводную информацию, что где лежит, в идеале - еще и вытащить сами данные. У Информатики есть что-то очень похожее - Informatica Enterprise Data Catalog - никто с ним дела не имел?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
17.06.2019, 05:12
    #39827050
Юрий Кудрявцев
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George NordicКоллеги, нужен коллективный разум и совет.

Есть, допустим, 20 различных БД - MS SQL, Oracle, PG.
Источники меняются, каждый раз перестраивать DWH - мартышкин труд. Есть идея все запихать в DataLake - т.е. нужен инструмент, в который можно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных".

Кто как решает данную задачу?

Alation и в паре мест IBM Data Governance Catalog. Alation лучше )
...
Рейтинг: 0 / 0
17.06.2019, 17:21
    #39827388
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
Ого, круто. Спасибо, Юр!
...
Рейтинг: 0 / 0
22.06.2019, 11:19
    #39829422
Критик
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George Nordic,

А как выбудете решать задачу, если в одной базе условно поле "фамилия гражданина" называется FIO, во второй Name, в третьей Familiya, а в четвертой F561? Все равно ведь руками все это сопоставляется...
...
Рейтинг: 0 / 0
25.06.2019, 17:03
    #39830433
Shtock
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
у Амазона для этого есть спец-продукт. aws glue. по-факту это краулер, который выгребает метаданные и представляет их в +- адекватном виде. потом по ним можно делать либо etl им же, либо создавать внешние таблицы, на которую натравливать что-нибудь типа athena. само собой он serverless, поэтому запуски краулеров на метаданные стоят денег.
...
Рейтинг: 0 / 0
01.07.2019, 12:49
    #39832223
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
Критик, Есть масса подобных решений - Machine Learning Data Catalogs. И да, есть решения которые парсят сами данные и выстраивают предположения об их связи, исходя из пересечения данных.

Далее - можно и из самих данных сделать выводы - оценка, стоимость, рос, вес, геопозиция... Как говорит Jurii - полный ИСИН :)

Вот forrester :


С Уважением,
Георгий
...
Рейтинг: 0 / 0
01.07.2019, 17:43
    #39832431
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George Nordicно не гнать же все в хадуп, в конце-то концов - это ж задвоение полное

George NordicКритик, Есть масса подобных решений - Machine Learning Data Catalogs. И да, есть решения которые парсят сами данные и выстраивают предположения об их связи, исходя из пересечения данных.


и чо, среди них реально есть такие что строят метаданные с разных источников не копируя сами данные на дата лейк ?
прям волшебство.
...
Рейтинг: 0 / 0
20.09.2019, 13:11
    #39864580
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
H5N1и чо, среди них реально есть такие что строят метаданные с разных источников не копируя сами данные на дата лейк ?
прям волшебство.Ну. Дожили - теперь и Gartner говорит, что дата каталоги в правильных компаниях "Маст Хэв"!

Augmented Data Catalogs: Now an Enterprise Must-Have for Data and Analytics Leaders

Demand for data catalogs is soaring as organizations continue to struggle with finding, inventorying and analyzing vastly distributed and diverse data assets. Data and analytics leaders must investigate and adopt ML-augmented data catalogs as part of their overall data management solutions strategy.

Таак, забиваем на блокчейн, срочно изучаем дата-каталоги

А, по сути, прикольная оказалась технология. Но все равно надо руками прописывать доступ к каждому источнику с нормальным таким уровнем доступа, чтобы как минимум метаданные можно было вытащить, и к самим данным - доступ на чтение. Потом "данные о данных" стекаются на отдельный сервер, где они представлены в виде "магазина" данных - это я сейчас про ex-Podium Data. Потом, разумеется, применение политик и все такое, чтобы кто попало какие-нить критичные данные не нашопил.
Выводится справка по данным: доступность, востребованность (насколько часто их запрашивают), размер, качество (вопрос как это считается), и содержание (аналогично). Там даже корзинка есть, как в интернет-магазинах, можно набросать себе в корзину и нажать "получить". Генерируется скрипт загрузки и выбранные данные закачиваются в BI-систему.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
21.09.2019, 00:56
    #39864926
Alexander Ryndin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
Да Гартнер сто лет говорит о каталогах, метаданных и Logical Data Warehouse.
Вот Qlik начавший говорить про data catalogs и про то, что нужно pushdown в data lakes делать - вот это реально новость :)
...
Рейтинг: 0 / 0
23.09.2019, 12:09
    #39865524
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
Alexander, Qlik еще и Attunity прикупил, до кучи. Он лайн репликация (Change Data Capture), выходцы их Golden Gate делали (что неудивительно). Теперь лозунг - Data-Driven Company. Не хочу сказать, что смещение фокуса, скорее - расширение линейки. В принципе, ничего сильно неожиданного нет - многие производители расширяют линейку... Но мне как-то привычнее чисто BI. Теперь вот ELT, каталоги и Big Data Indexing.

Такие дела.
Георгий
...
Рейтинг: 0 / 0
24.09.2019, 10:53
    #39866124
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George NordicУ каждого есть есть несколько баз.
И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги.

Строить DWH - ну так себе идея. БД растут и меняются постоянно. Т.е. скорость изменений выше, чем сможет отреагировать команда которая хранилищем занимается. Это не DataLake будет, а DataSwamp какой-то.

Лить все в даталэйк - ну, тоже безумство.

и все таки я так и не понял что за магия ваших дата каталогов позволит посчитать "какие машины зарегистрированы у тех, кто не платит налоги" без перекачки самих данных в даталейк.
выглядит что эти каталоги скорее под далейк превратившийся в болото думан. что бы не утонуть окончательно в болоте описать хоть как-то свалку в данных.
...
Рейтинг: 0 / 0
24.09.2019, 21:39
    #39866598
Alexander Ryndin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George NordicAlexander, Qlik еще и Attunity прикупил, до кучи. Он лайн репликация (Change Data Capture), выходцы их Golden Gate делали (что неудивительно). Теперь лозунг - Data-Driven Company. Не хочу сказать, что смещение фокуса, скорее - расширение линейки. В принципе, ничего сильно неожиданного нет - многие производители расширяют линейку... Но мне как-то привычнее чисто BI. Теперь вот ELT, каталоги и Big Data Indexing.

Такие дела.
ГеоргийА кто конкретно из GoldenGate делал Attunity (я не нашел на это никаких ссылок). В Attunity много людей перешло в последнее время из Oracle в США. Но так да, из GoldenGate много людей вышло, кто сделал несколько разных CDC-движков.

По поводу смещения фокуса - это нормальная и понятная история. Все расширяются.
...
Рейтинг: 0 / 0
25.09.2019, 11:14
    #39866731
kaldorey
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
Знакомые data scientists говорят, что такие каталоги данных (alation) очень полезны, когда новая система добавляется и можно быстро понять, что и где в них лежит. Time to market новых фич повышается
...
Рейтинг: 0 / 0
30.09.2019, 12:06
    #39869033
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
Alexander RyndinА кто конкретно из GoldenGate делал Attunity (я не нашел на это никаких ссылок)Мне коллеги из Attunity просто сказали, что костяк их команды - именно оттуда. Конкретно про фамилии не спрашивал.
H5N1и все таки я так и не понял что за магия ваших дата каталогов позволит посчитать "какие машины зарегистрированы у тех, кто не платит налоги" без перекачки самих данных в даталейк.Выбранные данные ПЕРЕКАЧИВАЮТСЯ в ADWH по запросу. Причем, насколько я понял, есть "ранее" и "позднее" связывание: при "раннем", кроме данных, при подключении прописывается и модель связывания, и генерируется ETL, который уже связанные данные перебрасывает. При "позднем" - просто выбранные столбцы / таблицы перебрасываются в ADHW (DWH / DL / куда угодно), и уже потом, автоматом или ручками прописываешь связи между собой и с другими данные, которые уже находятся в хранилище. Более того, подобные процесс забора данных можно делать не периодической основе / триггеру / инкрементом забирать.

Т.е. сценариев использования много, насколько я понял это очень эффективно работает когда есть "кладбище / болото" данных, и есть отдельное "чистое" хранилище / песочница / Аналитическое хранилище, в которое необходимо эти данные добавлять.

Так как технология ориентирована на пользователей, то я склоняюсь к песочнице / аналитической песочнице: вот вам, господа "гражданские аналитики" каталог, вот ваше аналитическое хранилище, грузите и работайте. А мы потом проверим что получилось и выльем в граните. Или не выльем

С Уважением,
Георгий
...
Рейтинг: 0 / 0
30.09.2019, 13:59
    #39869144
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как включить БД в DataLake?
George Nordic,

так и не вижу ответа на вопрос. предположим в ADWH пусто, никто еще ничего не заказывал перекачать. мне нужно "какие машины зарегистрированы у тех, кто не платит налоги" (тм)
откуда у каталога возьмется такая информация?
я бы понял если бы с олтп источника вытягиваются данные в хадуп, где по пути считают еще и агрегации для этого каталога. но если есть лишь олтп источник и каталог, то кто и которое время посчитал "какие машины зарегистрированы у тех, кто не платит налоги" ?
...
Рейтинг: 0 / 0
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как включить БД в DataLake? / 25 сообщений из 35, страница 1 из 2
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]