|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
H5N1, 1й шаг: в каталоге выбираем БД ГИБДД, выбираем номер прав/ФИО/Дату рождения/номер паспорта. 2й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ГИБДД по ФИО-дата рождения. Заливаем к себе в аналитическую песочницу. Шаг 3 - чистка данных: Внимательно смотрим на тех, у кого ФИО и Дата рождения одинаковая, но номер паспорта разный. Думаем, правим. При необходимости повторяем упражнения с номером паспорта / датой рождения / ФИО - чистим данные. 4й шаг: в каталоге выбираем БД ФНС, выбираем ИНН/ФИО/Дату рождения/номер паспорта. 5й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ФНС по ФИО-дата рождения. 6. Повторяем упражнение 3. Когда расхождения выявлены (и, желательно, устранены), можем делать связку: БД ГИБДД, номер прав.ТС/ФИО/Дата рождения/номер паспорта. БД ФНС, ФИО/Дата рождения/ИНН/сумма налогов за прошлый год / этот год. И построить необходимую аналитику. А в чем сложность? С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2019, 14:40 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Big Data Indexing как он есть ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2019, 15:04 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George NordicH5N1, 1й шаг: в каталоге выбираем БД ГИБДД, выбираем номер прав/ФИО/Дату рождения/номер паспорта. 2й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ГИБДД по ФИО-дата рождения. Заливаем к себе в аналитическую песочницу. Шаг 3 - чистка данных: Внимательно смотрим на тех, у кого ФИО и Дата рождения одинаковая, но номер паспорта разный. Думаем, правим. При необходимости повторяем упражнения с номером паспорта / датой рождения / ФИО - чистим данные. 4й шаг: в каталоге выбираем БД ФНС, выбираем ИНН/ФИО/Дату рождения/номер паспорта. 5й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ФНС по ФИО-дата рождения. 6. Повторяем упражнение 3. Когда расхождения выявлены (и, желательно, устранены), можем делать связку: БД ГИБДД, номер прав.ТС/ФИО/Дата рождения/номер паспорта. БД ФНС, ФИО/Дата рождения/ИНН/сумма налогов за прошлый год / этот год. И построить необходимую аналитику. А в чем сложность? во первых сложно связать это порно с изначальной хотелкой George NordicНапример, есть 10 министерств - МВД там, ФНС, Минтруд , Минстат и т.д. У каждого есть есть несколько баз. И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги. что-то мне подсказывает что копировать и очистить целиком базы не увяжется с "возможность быстро получить" ну и не понято что такое "построить необходимую аналитику". типа репортик на однажды выгруженных данных ? как-то сложно такое связать с изночальным "видеть единую картину" ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2019, 17:26 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George Nordic, По поводу костяка вас не обманули, но это не значит, что sonority Attunity делали выходцы из гг. Там не менее перед командой инженеров в Attunity, которые пришли туда за последние лет 5-7, могу снять шляпу. Много соли с ними съели ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2019, 06:09 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Alexander RyndinТам не менее перед командой инженеров в Attunity, которые пришли туда за последние лет 5-7, могу снять шляпу. Много соли с ними съели Передам при встрече. Вопрос, как этот продукт приживется в России - тут и GG и у Informatica хорошие позиции и множество проектов. А заверения "наш CDC всем CDCям CDC!", не подтвержденными реальными проектами в России - звучит как-то... черезчур оптимистично, мягко говоря БумбарашBig Data Indexing как он естьБумбараш, вот не знаю будете плакать или смеяться, но Qlik разрабатывает и собственный BDI, для связывания данные по своей ассоциативной модели (выявление и индексирование всех возможных связей данных). Натравливается на файл БД, строит модель Qlik с агрегатами, детали извлекаются с помощью ODAG - генерация приложение и загрузка в него данных из БД.H5N1что-то мне подсказывает что копировать и очистить целиком базы не увяжется с "возможность быстро получить"Я специально пример с чисткой данных привел, так как многие этот момент сыдливо опускают. А тут процентов 40% трудозатрат.H5N1во первых сложно связать это порно с изначальной хотелкой... как-то сложно такое связать с изночальным "видеть единую картину"Вот тут не понял. Мне кажется, что, имея подобные инструменты, можно довольно быстро разобраться с незнакомой базой / болотом - про что говорят и Юрий Кудрявцев и kaldorey. А какие Вы видите альтернативы? Пилить DWH по Data Valut? С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2019, 10:19 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
H5N1так и не вижу ответа на вопрос. предположим в ADWH пусто, никто еще ничего не заказывал перекачать. мне нужно "какие машины зарегистрированы у тех, кто не платит налоги" (тм) откуда у каталога возьмется такая информация?А-а-а, ясно. Тут самое прикольное. Каталогом приятно пользоваться - "запомните этот твит" (с). Когда у тебя на блюдечке "вот списочек машин, БД ГИБДД", "вот ФИО владельца, БД ГИБДД", "а тут соизволите найти ИНН, БД ФНС", а теперь нажмите зелененькую кнопочку (и, при необходимости, укажите частоту обновления данных в вашей ADWH) - и все данные к вам перекочуют - думаю, у аналитиков хватит подготовки чтобы связать данные (а некоторые системы связывают поля автоматом по совпадению в данных) и построить необходимый аналитический отчет. Тут вопрос в том, а кто из болота тягает бегемота эти данные описывает и говорит что поле N23BDL - это ФИО владельца, а NomerMashyny - это номер гос. регистрации. Волшебные буквы "ML" говорят о том, что каталог будет самостоятельно профилировать данные и ставить подсказки. Но, даже если это и так, все равно остается очень большая работа над метаданными - чтобы прописать или валидировать связку "N23BDL" - это "ФИО владельца транспортного средства" и прописать права доступа. Думаю, тут основная собака трудозатрат и порылась. С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2019, 12:44 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George Nordic, ну ясно. я просто думал вдруг я что-то глобально пропустил. по мне это какой-то костыль, когда уже что-то совсем не правильно сделано. имхо логичней сначала поставить задачу, а потом уже начитать выяснять как эти данные доставить в DL и интегрировать в общую модель. а вариант когда аналитик с лева вдруг решил что нафигачить солюшен и накликивает то что хочет, в европе имхо просто нелегально. gdpr требует защитить фио и показывать его лишь тому, кому это совсем необходимо под выполнение конкретной задачи. причем задачи, на которую клент дал дорбро. даже в виде хеша, для скоринга одной услуги можно использовать, для соседней уже нет. а так да, 100% гарантия что чувак накликает, а потом эксплуатация выяснит, что рядом с полем NomerMashyny еще было булеан поле XpeHb, которое кликальщик должен был учесть. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2019, 17:02 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
George NordicH5N1, 1й шаг: в каталоге выбираем БД ГИБДД, выбираем номер прав/ФИО/Дату рождения/номер паспорта. 2й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ГИБДД по ФИО-дата рождения. Взлетит ли? В одной базе номер паспорта хранится, начиная с серии, в другой серия отдельно, в третьей часть начинается с N, а часть с # или пробела (потому что приложению так нужно), а в четвертой базе на самом деле не номер паспорта, а номер документа, удостоверяющего личность, например дип паспорт, или какой-нибудь паспорт моряка. 95% работы все равно будет ручной. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2019, 21:33 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Критик, ага, тут мы и подошли к тому что говорит H5N1 и стыдливо умалчивают маркетологи. Это ж все геймификация / симплификация, миллиеналы и прочие "гражданские аналитики". Т.е. задача специалиста - подготовить им эти "Магазины данных" и права настроить, чтобы он случаем ФИО не увидел, если ему не положено. Т.е. начинаем с простого - это неплохой инструмент для аналитика (ИТ-специалиста), что бы разобраться с новыми источниками данных. Но как это сейчас позиционируется - для конечных пользователей - это адова работа для тех же специалистов, которых заставят разбираться с источниками и готовить витрины, пригодные для использования конечными пользователями. И если юзер выбрал не валидное поле или не обратил внимание на галочку "expired" или "do not use", то вопросы будут задавать не им, а тем кто готовил витрины. Но, в любом случае, я пока больше плюсов вижу. С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
03.10.2019, 09:42 |
|
Как включить БД в DataLake?
|
|||
---|---|---|---|
#18+
Хорошая новость для тех, кто хочет поиграться с каталогом и понять, для чего он нужен. Qlik включил решение Data Catalog в свою облачную версию Qlik Sense SaaS. Есть 45 дней триал, можно зарегистрироваться и посмотреть как это работает. Смысл простой - кидаешь в облако / коннектишь кучу файлов, проходишь и профайлером и готовишь "магазин данных", разрешая / запрещая видимость данных по ролям. Потом пользователь открывает список таблиц и полей с описанием + видено насколько данные чистые и как часто к ним обращаются, и может накидать себе в модель то что ему понравилось. Я думаю, что прочие решения не сильно отличаются, так что кто хочет бесплатно пощупать руками что это за звери Data Catalog - велкам. С регистрацией, но без SMS С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
12.02.2021, 12:27 |
|
|
start [/forum/topic.php?fid=48&startmsg=39869172&tid=1856536]: |
0ms |
get settings: |
16ms |
get forum list: |
6ms |
check forum access: |
1ms |
check topic access: |
1ms |
track hit: |
40ms |
get topic data: |
3ms |
get forum data: |
1ms |
get page messages: |
199ms |
get tp. blocked users: |
0ms |
others: | 360ms |
total: | 627ms |
0 / 0 |