powered by simpleCommunicator - 2.0.29     © 2024 Programmizd 02
Map
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как включить БД в DataLake?
35 сообщений из 35, показаны все 2 страниц
Как включить БД в DataLake?
    #39815736
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги, нужен коллективный разум и совет.

Есть, допустим, 20 различных БД - MS SQL, Oracle, PG.
Источники меняются, каждый раз перестраивать DWH - мартышкин труд. Есть идея все запихать в DataLake - т.е. нужен инструмент, в который можно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных".

Кто как решает данную задачу?

Про PodiumData (Qlik Data Catalist) - в курсе, разбираюсь в рамках служебных обязанностей. Вопрос, кто как такую задачу решает?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39815780
Фотография vikkiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

мы подключение к DL (ADLS) делали через External Data Sources и к ним External Tables, потом процедурами ETL/ELT, но это на родном SQL Server/DWH.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39815784
Фотография vikkiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
но это была работа чисто с данными которые предварительно ADF/DataBricks готовились,
управление метаданными и каталоги - это уже немного другая тема.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39815838
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
vikkiv, спасибо! Тут действительно темная задача получается - ближе к управлению метаданными (неглубоко, просто понять что где лежит) и каталогами. Было бы интересно DL текущую структуру накрыть и проиндексировать... но не гнать же все в хадуп, в конце-то концов - это ж задвоение полное

Может кто что еще использует?
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39816287
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

DL это сами данные, которые обрабатываются и в процессе обработки некоторые строят метаданные. если сами данные не планируете закидывать в систему то это уже на DL вообще не похоже
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39823896
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordicможно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных".
Индексировать данные?? Все ???? Во всех базах ?????
Или только метаданные???
1-е займет столько же времени сколько и перегрузка всего.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39824420
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicИсточники меняются, каждый раз перестраивать DWH - мартышкин труд

Они же меняются очень не часто.
Раз в год одна база отвалится, две подключаться...
Вам же работа нужна? )
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39825272
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги, давайте задачу расскажу, думаю так легче будет.

Например, есть 10 министерств - МВД там, ФНС, Минтруд , Минстат и т.д.
У каждого есть есть несколько баз.
И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги.

Строить DWH - ну так себе идея. БД растут и меняются постоянно. Т.е. скорость изменений выше, чем сможет отреагировать команда которая хранилищем занимается. Это не DataLake будет, а DataSwamp какой-то.

Лить все в даталэйк - ну, тоже безумство.

Я по долгу службы рюхаю вот это приобретение PodiumData . Вроде как раз для решения подобных задач и предусмотрено - анализ метаданных, "магазин" данных - натравливается на разные источники и показывает информацию по данным в сводном виде, где что лежит, насколько чистое, как часто используется. Картинки кажут красивые:



Вопрос, а как сейчас решаются такие задачи?

Есть ли аналоги? Инструмент, которые может подключиться к БД и выдать на-гора что где лежит?

Или таки пишут DWH?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39825581
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

по мне типичная задача стриминга событий и агрегации на лету. базы пишут сообщения в какой-нить мессенджинг сервис типа kafka, на другой стороне кто-то типа spark streaming читает, агрегирует и апдейтит некие агрегаты
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39825869
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,
И что смог этот Qlik Data Catalyst ???
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39825992
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan DurakИ что смог этот Qlik Data Catalyst ???Ну, как минимум, продать себя Qlik. Не, идея-то понятная и крутая. Сейчас будем пробовать, с чем его едят, и как.

H5N1, привет! :) "Когда есть молоток, все задачи - гвозди" Нет, это не он-лайн парсинг. Структура DB более-менее стабильна. Задача - как-нибудь получить в одном месте сводную информацию, что где лежит, в идеале - еще и вытащить сами данные. У Информатики есть что-то очень похожее - Informatica Enterprise Data Catalog - никто с ним дела не имел?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39827050
Юрий Кудрявцев
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicКоллеги, нужен коллективный разум и совет.

Есть, допустим, 20 различных БД - MS SQL, Oracle, PG.
Источники меняются, каждый раз перестраивать DWH - мартышкин труд. Есть идея все запихать в DataLake - т.е. нужен инструмент, в который можно подключить DB, и он индексирует данные и покажет где что лежит - некий "магазин данных".

Кто как решает данную задачу?

Alation и в паре мест IBM Data Governance Catalog. Alation лучше )
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39827388
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ого, круто. Спасибо, Юр!
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39829422
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

А как выбудете решать задачу, если в одной базе условно поле "фамилия гражданина" называется FIO, во второй Name, в третьей Familiya, а в четвертой F561? Все равно ведь руками все это сопоставляется...
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39830433
Фотография Shtock
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
у Амазона для этого есть спец-продукт. aws glue. по-факту это краулер, который выгребает метаданные и представляет их в +- адекватном виде. потом по ним можно делать либо etl им же, либо создавать внешние таблицы, на которую натравливать что-нибудь типа athena. само собой он serverless, поэтому запуски краулеров на метаданные стоят денег.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39832223
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик, Есть масса подобных решений - Machine Learning Data Catalogs. И да, есть решения которые парсят сами данные и выстраивают предположения об их связи, исходя из пересечения данных.

Далее - можно и из самих данных сделать выводы - оценка, стоимость, рос, вес, геопозиция... Как говорит Jurii - полный ИСИН :)

Вот forrester :


С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39832431
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordicно не гнать же все в хадуп, в конце-то концов - это ж задвоение полное

George NordicКритик, Есть масса подобных решений - Machine Learning Data Catalogs. И да, есть решения которые парсят сами данные и выстраивают предположения об их связи, исходя из пересечения данных.


и чо, среди них реально есть такие что строят метаданные с разных источников не копируя сами данные на дата лейк ?
прям волшебство.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39864580
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1и чо, среди них реально есть такие что строят метаданные с разных источников не копируя сами данные на дата лейк ?
прям волшебство.Ну. Дожили - теперь и Gartner говорит, что дата каталоги в правильных компаниях "Маст Хэв"!

Augmented Data Catalogs: Now an Enterprise Must-Have for Data and Analytics Leaders

Demand for data catalogs is soaring as organizations continue to struggle with finding, inventorying and analyzing vastly distributed and diverse data assets. Data and analytics leaders must investigate and adopt ML-augmented data catalogs as part of their overall data management solutions strategy.

Таак, забиваем на блокчейн, срочно изучаем дата-каталоги

А, по сути, прикольная оказалась технология. Но все равно надо руками прописывать доступ к каждому источнику с нормальным таким уровнем доступа, чтобы как минимум метаданные можно было вытащить, и к самим данным - доступ на чтение. Потом "данные о данных" стекаются на отдельный сервер, где они представлены в виде "магазина" данных - это я сейчас про ex-Podium Data. Потом, разумеется, применение политик и все такое, чтобы кто попало какие-нить критичные данные не нашопил.
Выводится справка по данным: доступность, востребованность (насколько часто их запрашивают), размер, качество (вопрос как это считается), и содержание (аналогично). Там даже корзинка есть, как в интернет-магазинах, можно набросать себе в корзину и нажать "получить". Генерируется скрипт загрузки и выбранные данные закачиваются в BI-систему.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39864926
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да Гартнер сто лет говорит о каталогах, метаданных и Logical Data Warehouse.
Вот Qlik начавший говорить про data catalogs и про то, что нужно pushdown в data lakes делать - вот это реально новость :)
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39865524
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander, Qlik еще и Attunity прикупил, до кучи. Он лайн репликация (Change Data Capture), выходцы их Golden Gate делали (что неудивительно). Теперь лозунг - Data-Driven Company. Не хочу сказать, что смещение фокуса, скорее - расширение линейки. В принципе, ничего сильно неожиданного нет - многие производители расширяют линейку... Но мне как-то привычнее чисто BI. Теперь вот ELT, каталоги и Big Data Indexing.

Такие дела.
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39866124
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicУ каждого есть есть несколько баз.
И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги.

Строить DWH - ну так себе идея. БД растут и меняются постоянно. Т.е. скорость изменений выше, чем сможет отреагировать команда которая хранилищем занимается. Это не DataLake будет, а DataSwamp какой-то.

Лить все в даталэйк - ну, тоже безумство.

и все таки я так и не понял что за магия ваших дата каталогов позволит посчитать "какие машины зарегистрированы у тех, кто не платит налоги" без перекачки самих данных в даталейк.
выглядит что эти каталоги скорее под далейк превратившийся в болото думан. что бы не утонуть окончательно в болоте описать хоть как-то свалку в данных.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39866598
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicAlexander, Qlik еще и Attunity прикупил, до кучи. Он лайн репликация (Change Data Capture), выходцы их Golden Gate делали (что неудивительно). Теперь лозунг - Data-Driven Company. Не хочу сказать, что смещение фокуса, скорее - расширение линейки. В принципе, ничего сильно неожиданного нет - многие производители расширяют линейку... Но мне как-то привычнее чисто BI. Теперь вот ELT, каталоги и Big Data Indexing.

Такие дела.
ГеоргийА кто конкретно из GoldenGate делал Attunity (я не нашел на это никаких ссылок). В Attunity много людей перешло в последнее время из Oracle в США. Но так да, из GoldenGate много людей вышло, кто сделал несколько разных CDC-движков.

По поводу смещения фокуса - это нормальная и понятная история. Все расширяются.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39866731
kaldorey
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Знакомые data scientists говорят, что такие каталоги данных (alation) очень полезны, когда новая система добавляется и можно быстро понять, что и где в них лежит. Time to market новых фич повышается
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869033
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinА кто конкретно из GoldenGate делал Attunity (я не нашел на это никаких ссылок)Мне коллеги из Attunity просто сказали, что костяк их команды - именно оттуда. Конкретно про фамилии не спрашивал.
H5N1и все таки я так и не понял что за магия ваших дата каталогов позволит посчитать "какие машины зарегистрированы у тех, кто не платит налоги" без перекачки самих данных в даталейк.Выбранные данные ПЕРЕКАЧИВАЮТСЯ в ADWH по запросу. Причем, насколько я понял, есть "ранее" и "позднее" связывание: при "раннем", кроме данных, при подключении прописывается и модель связывания, и генерируется ETL, который уже связанные данные перебрасывает. При "позднем" - просто выбранные столбцы / таблицы перебрасываются в ADHW (DWH / DL / куда угодно), и уже потом, автоматом или ручками прописываешь связи между собой и с другими данные, которые уже находятся в хранилище. Более того, подобные процесс забора данных можно делать не периодической основе / триггеру / инкрементом забирать.

Т.е. сценариев использования много, насколько я понял это очень эффективно работает когда есть "кладбище / болото" данных, и есть отдельное "чистое" хранилище / песочница / Аналитическое хранилище, в которое необходимо эти данные добавлять.

Так как технология ориентирована на пользователей, то я склоняюсь к песочнице / аналитической песочнице: вот вам, господа "гражданские аналитики" каталог, вот ваше аналитическое хранилище, грузите и работайте. А мы потом проверим что получилось и выльем в граните. Или не выльем

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869144
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

так и не вижу ответа на вопрос. предположим в ADWH пусто, никто еще ничего не заказывал перекачать. мне нужно "какие машины зарегистрированы у тех, кто не платит налоги" (тм)
откуда у каталога возьмется такая информация?
я бы понял если бы с олтп источника вытягиваются данные в хадуп, где по пути считают еще и агрегации для этого каталога. но если есть лишь олтп источник и каталог, то кто и которое время посчитал "какие машины зарегистрированы у тех, кто не платит налоги" ?
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869172
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1, 1й шаг: в каталоге выбираем БД ГИБДД, выбираем номер прав/ФИО/Дату рождения/номер паспорта.
2й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ГИБДД по ФИО-дата рождения.

Заливаем к себе в аналитическую песочницу.
Шаг 3 - чистка данных:
Внимательно смотрим на тех, у кого ФИО и Дата рождения одинаковая, но номер паспорта разный. Думаем, правим. При необходимости повторяем упражнения с номером паспорта / датой рождения / ФИО - чистим данные.

4й шаг: в каталоге выбираем БД ФНС, выбираем ИНН/ФИО/Дату рождения/номер паспорта.
5й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ФНС по ФИО-дата рождения.
6. Повторяем упражнение 3.

Когда расхождения выявлены (и, желательно, устранены), можем делать связку:
БД ГИБДД, номер прав.ТС/ФИО/Дата рождения/номер паспорта.
БД ФНС, ФИО/Дата рождения/ИНН/сумма налогов за прошлый год / этот год.

И построить необходимую аналитику. А в чем сложность?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869197
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Big Data Indexing как он есть
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869354
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicH5N1, 1й шаг: в каталоге выбираем БД ГИБДД, выбираем номер прав/ФИО/Дату рождения/номер паспорта.
2й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ГИБДД по ФИО-дата рождения.

Заливаем к себе в аналитическую песочницу.
Шаг 3 - чистка данных:
Внимательно смотрим на тех, у кого ФИО и Дата рождения одинаковая, но номер паспорта разный. Думаем, правим. При необходимости повторяем упражнения с номером паспорта / датой рождения / ФИО - чистим данные.

4й шаг: в каталоге выбираем БД ФНС, выбираем ИНН/ФИО/Дату рождения/номер паспорта.
5й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ФНС по ФИО-дата рождения.
6. Повторяем упражнение 3.

Когда расхождения выявлены (и, желательно, устранены), можем делать связку:
БД ГИБДД, номер прав.ТС/ФИО/Дата рождения/номер паспорта.
БД ФНС, ФИО/Дата рождения/ИНН/сумма налогов за прошлый год / этот год.

И построить необходимую аналитику. А в чем сложность?

во первых сложно связать это порно с изначальной хотелкой
George NordicНапример, есть 10 министерств - МВД там, ФНС, Минтруд , Минстат и т.д.
У каждого есть есть несколько баз.
И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги.
что-то мне подсказывает что копировать и очистить целиком базы не увяжется с "возможность быстро получить"

ну и не понято что такое "построить необходимую аналитику". типа репортик на однажды выгруженных данных ? как-то сложно такое связать с изночальным "видеть единую картину"
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869660
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

По поводу костяка вас не обманули, но это не значит, что sonority Attunity делали выходцы из гг. Там не менее перед командой инженеров в Attunity, которые пришли туда за последние лет 5-7, могу снять шляпу. Много соли с ними съели
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869713
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinТам не менее перед командой инженеров в Attunity, которые пришли туда за последние лет 5-7, могу снять шляпу. Много соли с ними съели Передам при встрече. Вопрос, как этот продукт приживется в России - тут и GG и у Informatica хорошие позиции и множество проектов. А заверения "наш CDC всем CDCям CDC!", не подтвержденными реальными проектами в России - звучит как-то... черезчур оптимистично, мягко говоря
БумбарашBig Data Indexing как он естьБумбараш, вот не знаю будете плакать или смеяться, но Qlik разрабатывает и собственный BDI, для связывания данные по своей ассоциативной модели (выявление и индексирование всех возможных связей данных). Натравливается на файл БД, строит модель Qlik с агрегатами, детали извлекаются с помощью ODAG - генерация приложение и загрузка в него данных из БД.H5N1что-то мне подсказывает что копировать и очистить целиком базы не увяжется с "возможность быстро получить"Я специально пример с чисткой данных привел, так как многие этот момент сыдливо опускают. А тут процентов 40% трудозатрат.H5N1во первых сложно связать это порно с изначальной хотелкой... как-то сложно такое связать с изночальным "видеть единую картину"Вот тут не понял. Мне кажется, что, имея подобные инструменты, можно довольно быстро разобраться с незнакомой базой / болотом - про что говорят и Юрий Кудрявцев и kaldorey.

А какие Вы видите альтернативы? Пилить DWH по Data Valut?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869872
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1так и не вижу ответа на вопрос. предположим в ADWH пусто, никто еще ничего не заказывал перекачать. мне нужно "какие машины зарегистрированы у тех, кто не платит налоги" (тм) откуда у каталога возьмется такая информация?А-а-а, ясно. Тут самое прикольное. Каталогом приятно пользоваться - "запомните этот твит" (с). Когда у тебя на блюдечке "вот списочек машин, БД ГИБДД", "вот ФИО владельца, БД ГИБДД", "а тут соизволите найти ИНН, БД ФНС", а теперь нажмите зелененькую кнопочку (и, при необходимости, укажите частоту обновления данных в вашей ADWH) - и все данные к вам перекочуют - думаю, у аналитиков хватит подготовки чтобы связать данные (а некоторые системы связывают поля автоматом по совпадению в данных) и построить необходимый аналитический отчет.

Тут вопрос в том, а кто из болота тягает бегемота эти данные описывает и говорит что поле N23BDL - это ФИО владельца, а NomerMashyny - это номер гос. регистрации. Волшебные буквы "ML" говорят о том, что каталог будет самостоятельно профилировать данные и ставить подсказки. Но, даже если это и так, все равно остается очень большая работа над метаданными - чтобы прописать или валидировать связку "N23BDL" - это "ФИО владельца транспортного средства" и прописать права доступа. Думаю, тут основная собака трудозатрат и порылась.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39870111
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

ну ясно. я просто думал вдруг я что-то глобально пропустил.
по мне это какой-то костыль, когда уже что-то совсем не правильно сделано. имхо логичней сначала поставить задачу, а потом уже начитать выяснять как эти данные доставить в DL и интегрировать в общую модель. а вариант когда аналитик с лева вдруг решил что нафигачить солюшен и накликивает то что хочет, в европе имхо просто нелегально. gdpr требует защитить фио и показывать его лишь тому, кому это совсем необходимо под выполнение конкретной задачи. причем задачи, на которую клент дал дорбро. даже в виде хеша, для скоринга одной услуги можно использовать, для соседней уже нет.
а так да, 100% гарантия что чувак накликает, а потом эксплуатация выяснит, что рядом с полем NomerMashyny еще было булеан поле XpeHb, которое кликальщик должен был учесть.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39870863
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicH5N1, 1й шаг: в каталоге выбираем БД ГИБДД, выбираем номер прав/ФИО/Дату рождения/номер паспорта.
2й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ГИБДД по ФИО-дата рождения.

Взлетит ли?
В одной базе номер паспорта хранится, начиная с серии, в другой серия отдельно, в третьей часть начинается с N, а часть с # или пробела (потому что приложению так нужно), а в четвертой базе на самом деле не номер паспорта, а номер документа, удостоверяющего личность, например дип паспорт, или какой-нибудь паспорт моряка. 95% работы все равно будет ручной.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39870964
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик, ага, тут мы и подошли к тому что говорит H5N1 и стыдливо умалчивают маркетологи. Это ж все геймификация / симплификация, миллиеналы и прочие "гражданские аналитики". Т.е. задача специалиста - подготовить им эти "Магазины данных" и права настроить, чтобы он случаем ФИО не увидел, если ему не положено.

Т.е. начинаем с простого - это неплохой инструмент для аналитика (ИТ-специалиста), что бы разобраться с новыми источниками данных. Но как это сейчас позиционируется - для конечных пользователей - это адова работа для тех же специалистов, которых заставят разбираться с источниками и готовить витрины, пригодные для использования конечными пользователями. И если юзер выбрал не валидное поле или не обратил внимание на галочку "expired" или "do not use", то вопросы будут задавать не им, а тем кто готовил витрины.

Но, в любом случае, я пока больше плюсов вижу.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Период между сообщениями больше года.
Как включить БД в DataLake?
    #40044780
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хорошая новость для тех, кто хочет поиграться с каталогом и понять, для чего он нужен. Qlik включил решение Data Catalog в свою облачную версию Qlik Sense SaaS. Есть 45 дней триал, можно зарегистрироваться и посмотреть как это работает. Смысл простой - кидаешь в облако / коннектишь кучу файлов, проходишь и профайлером и готовишь "магазин данных", разрешая / запрещая видимость данных по ролям. Потом пользователь открывает список таблиц и полей с описанием + видено насколько данные чистые и как часто к ним обращаются, и может накидать себе в модель то что ему понравилось.

Я думаю, что прочие решения не сильно отличаются, так что кто хочет бесплатно пощупать руками что это за звери Data Catalog - велкам. С регистрацией, но без SMS

С Уважением,
Георгий
...
Рейтинг: 0 / 0
35 сообщений из 35, показаны все 2 страниц
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как включить БД в DataLake?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]