powered by simpleCommunicator - 2.0.30     © 2024 Programmizd 02
Map
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как включить БД в DataLake?
25 сообщений из 35, страница 1 из 2
Как включить БД в DataLake?
    #39815736
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги, нужен коллективный разум и совет.

Есть, допустим, 20 различных БД - MS SQL, Oracle, PG.
Источники меняются, каждый раз перестраивать DWH - мартышкин труд. Есть идея все запихать в DataLake - т.е. нужен инструмент, в который можно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных".

Кто как решает данную задачу?

Про PodiumData (Qlik Data Catalist) - в курсе, разбираюсь в рамках служебных обязанностей. Вопрос, кто как такую задачу решает?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39815780
Фотография vikkiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

мы подключение к DL (ADLS) делали через External Data Sources и к ним External Tables, потом процедурами ETL/ELT, но это на родном SQL Server/DWH.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39815784
Фотография vikkiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
но это была работа чисто с данными которые предварительно ADF/DataBricks готовились,
управление метаданными и каталоги - это уже немного другая тема.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39815838
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
vikkiv, спасибо! Тут действительно темная задача получается - ближе к управлению метаданными (неглубоко, просто понять что где лежит) и каталогами. Было бы интересно DL текущую структуру накрыть и проиндексировать... но не гнать же все в хадуп, в конце-то концов - это ж задвоение полное

Может кто что еще использует?
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39816287
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

DL это сами данные, которые обрабатываются и в процессе обработки некоторые строят метаданные. если сами данные не планируете закидывать в систему то это уже на DL вообще не похоже
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39823896
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordicможно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных".
Индексировать данные?? Все ???? Во всех базах ?????
Или только метаданные???
1-е займет столько же времени сколько и перегрузка всего.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39824420
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicИсточники меняются, каждый раз перестраивать DWH - мартышкин труд

Они же меняются очень не часто.
Раз в год одна база отвалится, две подключаться...
Вам же работа нужна? )
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39825272
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги, давайте задачу расскажу, думаю так легче будет.

Например, есть 10 министерств - МВД там, ФНС, Минтруд , Минстат и т.д.
У каждого есть есть несколько баз.
И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги.

Строить DWH - ну так себе идея. БД растут и меняются постоянно. Т.е. скорость изменений выше, чем сможет отреагировать команда которая хранилищем занимается. Это не DataLake будет, а DataSwamp какой-то.

Лить все в даталэйк - ну, тоже безумство.

Я по долгу службы рюхаю вот это приобретение PodiumData . Вроде как раз для решения подобных задач и предусмотрено - анализ метаданных, "магазин" данных - натравливается на разные источники и показывает информацию по данным в сводном виде, где что лежит, насколько чистое, как часто используется. Картинки кажут красивые:



Вопрос, а как сейчас решаются такие задачи?

Есть ли аналоги? Инструмент, которые может подключиться к БД и выдать на-гора что где лежит?

Или таки пишут DWH?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39825581
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

по мне типичная задача стриминга событий и агрегации на лету. базы пишут сообщения в какой-нить мессенджинг сервис типа kafka, на другой стороне кто-то типа spark streaming читает, агрегирует и апдейтит некие агрегаты
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39825869
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,
И что смог этот Qlik Data Catalyst ???
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39825992
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan DurakИ что смог этот Qlik Data Catalyst ???Ну, как минимум, продать себя Qlik. Не, идея-то понятная и крутая. Сейчас будем пробовать, с чем его едят, и как.

H5N1, привет! :) "Когда есть молоток, все задачи - гвозди" Нет, это не он-лайн парсинг. Структура DB более-менее стабильна. Задача - как-нибудь получить в одном месте сводную информацию, что где лежит, в идеале - еще и вытащить сами данные. У Информатики есть что-то очень похожее - Informatica Enterprise Data Catalog - никто с ним дела не имел?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39827050
Юрий Кудрявцев
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicКоллеги, нужен коллективный разум и совет.

Есть, допустим, 20 различных БД - MS SQL, Oracle, PG.
Источники меняются, каждый раз перестраивать DWH - мартышкин труд. Есть идея все запихать в DataLake - т.е. нужен инструмент, в который можно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных".

Кто как решает данную задачу?

Alation и в паре мест IBM Data Governance Catalog. Alation лучше )
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39827388
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ого, круто. Спасибо, Юр!
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39829422
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

А как выбудете решать задачу, если в одной базе условно поле "фамилия гражданина" называется FIO, во второй Name, в третьей Familiya, а в четвертой F561? Все равно ведь руками все это сопоставляется...
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39830433
Фотография Shtock
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
у Амазона для этого есть спец-продукт. aws glue. по-факту это краулер, который выгребает метаданные и представляет их в +- адекватном виде. потом по ним можно делать либо etl им же, либо создавать внешние таблицы, на которую натравливать что-нибудь типа athena. само собой он serverless, поэтому запуски краулеров на метаданные стоят денег.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39832223
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик, Есть масса подобных решений - Machine Learning Data Catalogs. И да, есть решения которые парсят сами данные и выстраивают предположения об их связи, исходя из пересечения данных.

Далее - можно и из самих данных сделать выводы - оценка, стоимость, рос, вес, геопозиция... Как говорит Jurii - полный ИСИН :)

Вот forrester :


С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39832431
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordicно не гнать же все в хадуп, в конце-то концов - это ж задвоение полное

George NordicКритик, Есть масса подобных решений - Machine Learning Data Catalogs. И да, есть решения которые парсят сами данные и выстраивают предположения об их связи, исходя из пересечения данных.


и чо, среди них реально есть такие что строят метаданные с разных источников не копируя сами данные на дата лейк ?
прям волшебство.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39864580
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1и чо, среди них реально есть такие что строят метаданные с разных источников не копируя сами данные на дата лейк ?
прям волшебство.Ну. Дожили - теперь и Gartner говорит, что дата каталоги в правильных компаниях "Маст Хэв"!

Augmented Data Catalogs: Now an Enterprise Must-Have for Data and Analytics Leaders

Demand for data catalogs is soaring as organizations continue to struggle with finding, inventorying and analyzing vastly distributed and diverse data assets. Data and analytics leaders must investigate and adopt ML-augmented data catalogs as part of their overall data management solutions strategy.

Таак, забиваем на блокчейн, срочно изучаем дата-каталоги

А, по сути, прикольная оказалась технология. Но все равно надо руками прописывать доступ к каждому источнику с нормальным таким уровнем доступа, чтобы как минимум метаданные можно было вытащить, и к самим данным - доступ на чтение. Потом "данные о данных" стекаются на отдельный сервер, где они представлены в виде "магазина" данных - это я сейчас про ex-Podium Data. Потом, разумеется, применение политик и все такое, чтобы кто попало какие-нить критичные данные не нашопил.
Выводится справка по данным: доступность, востребованность (насколько часто их запрашивают), размер, качество (вопрос как это считается), и содержание (аналогично). Там даже корзинка есть, как в интернет-магазинах, можно набросать себе в корзину и нажать "получить". Генерируется скрипт загрузки и выбранные данные закачиваются в BI-систему.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39864926
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да Гартнер сто лет говорит о каталогах, метаданных и Logical Data Warehouse.
Вот Qlik начавший говорить про data catalogs и про то, что нужно pushdown в data lakes делать - вот это реально новость :)
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39865524
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander, Qlik еще и Attunity прикупил, до кучи. Он лайн репликация (Change Data Capture), выходцы их Golden Gate делали (что неудивительно). Теперь лозунг - Data-Driven Company. Не хочу сказать, что смещение фокуса, скорее - расширение линейки. В принципе, ничего сильно неожиданного нет - многие производители расширяют линейку... Но мне как-то привычнее чисто BI. Теперь вот ELT, каталоги и Big Data Indexing.

Такие дела.
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39866124
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicУ каждого есть есть несколько баз.
И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги.

Строить DWH - ну так себе идея. БД растут и меняются постоянно. Т.е. скорость изменений выше, чем сможет отреагировать команда которая хранилищем занимается. Это не DataLake будет, а DataSwamp какой-то.

Лить все в даталэйк - ну, тоже безумство.

и все таки я так и не понял что за магия ваших дата каталогов позволит посчитать "какие машины зарегистрированы у тех, кто не платит налоги" без перекачки самих данных в даталейк.
выглядит что эти каталоги скорее под далейк превратившийся в болото думан. что бы не утонуть окончательно в болоте описать хоть как-то свалку в данных.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39866598
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicAlexander, Qlik еще и Attunity прикупил, до кучи. Он лайн репликация (Change Data Capture), выходцы их Golden Gate делали (что неудивительно). Теперь лозунг - Data-Driven Company. Не хочу сказать, что смещение фокуса, скорее - расширение линейки. В принципе, ничего сильно неожиданного нет - многие производители расширяют линейку... Но мне как-то привычнее чисто BI. Теперь вот ELT, каталоги и Big Data Indexing.

Такие дела.
ГеоргийА кто конкретно из GoldenGate делал Attunity (я не нашел на это никаких ссылок). В Attunity много людей перешло в последнее время из Oracle в США. Но так да, из GoldenGate много людей вышло, кто сделал несколько разных CDC-движков.

По поводу смещения фокуса - это нормальная и понятная история. Все расширяются.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39866731
kaldorey
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Знакомые data scientists говорят, что такие каталоги данных (alation) очень полезны, когда новая система добавляется и можно быстро понять, что и где в них лежит. Time to market новых фич повышается
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869033
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinА кто конкретно из GoldenGate делал Attunity (я не нашел на это никаких ссылок)Мне коллеги из Attunity просто сказали, что костяк их команды - именно оттуда. Конкретно про фамилии не спрашивал.
H5N1и все таки я так и не понял что за магия ваших дата каталогов позволит посчитать "какие машины зарегистрированы у тех, кто не платит налоги" без перекачки самих данных в даталейк.Выбранные данные ПЕРЕКАЧИВАЮТСЯ в ADWH по запросу. Причем, насколько я понял, есть "ранее" и "позднее" связывание: при "раннем", кроме данных, при подключении прописывается и модель связывания, и генерируется ETL, который уже связанные данные перебрасывает. При "позднем" - просто выбранные столбцы / таблицы перебрасываются в ADHW (DWH / DL / куда угодно), и уже потом, автоматом или ручками прописываешь связи между собой и с другими данные, которые уже находятся в хранилище. Более того, подобные процесс забора данных можно делать не периодической основе / триггеру / инкрементом забирать.

Т.е. сценариев использования много, насколько я понял это очень эффективно работает когда есть "кладбище / болото" данных, и есть отдельное "чистое" хранилище / песочница / Аналитическое хранилище, в которое необходимо эти данные добавлять.

Так как технология ориентирована на пользователей, то я склоняюсь к песочнице / аналитической песочнице: вот вам, господа "гражданские аналитики" каталог, вот ваше аналитическое хранилище, грузите и работайте. А мы потом проверим что получилось и выльем в граните. Или не выльем

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869144
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

так и не вижу ответа на вопрос. предположим в ADWH пусто, никто еще ничего не заказывал перекачать. мне нужно "какие машины зарегистрированы у тех, кто не платит налоги" (тм)
откуда у каталога возьмется такая информация?
я бы понял если бы с олтп источника вытягиваются данные в хадуп, где по пути считают еще и агрегации для этого каталога. но если есть лишь олтп источник и каталог, то кто и которое время посчитал "какие машины зарегистрированы у тех, кто не платит налоги" ?
...
Рейтинг: 0 / 0
25 сообщений из 35, страница 1 из 2
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как включить БД в DataLake?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]