powered by simpleCommunicator - 2.0.18     © 2024 Programmizd 02
Map
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как включить БД в DataLake?
10 сообщений из 35, страница 2 из 2
Как включить БД в DataLake?
    #39869172
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1, 1й шаг: в каталоге выбираем БД ГИБДД, выбираем номер прав/ФИО/Дату рождения/номер паспорта.
2й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ГИБДД по ФИО-дата рождения.

Заливаем к себе в аналитическую песочницу.
Шаг 3 - чистка данных:
Внимательно смотрим на тех, у кого ФИО и Дата рождения одинаковая, но номер паспорта разный. Думаем, правим. При необходимости повторяем упражнения с номером паспорта / датой рождения / ФИО - чистим данные.

4й шаг: в каталоге выбираем БД ФНС, выбираем ИНН/ФИО/Дату рождения/номер паспорта.
5й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ФНС по ФИО-дата рождения.
6. Повторяем упражнение 3.

Когда расхождения выявлены (и, желательно, устранены), можем делать связку:
БД ГИБДД, номер прав.ТС/ФИО/Дата рождения/номер паспорта.
БД ФНС, ФИО/Дата рождения/ИНН/сумма налогов за прошлый год / этот год.

И построить необходимую аналитику. А в чем сложность?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869197
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Big Data Indexing как он есть
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869354
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicH5N1, 1й шаг: в каталоге выбираем БД ГИБДД, выбираем номер прав/ФИО/Дату рождения/номер паспорта.
2й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ГИБДД по ФИО-дата рождения.

Заливаем к себе в аналитическую песочницу.
Шаг 3 - чистка данных:
Внимательно смотрим на тех, у кого ФИО и Дата рождения одинаковая, но номер паспорта разный. Думаем, правим. При необходимости повторяем упражнения с номером паспорта / датой рождения / ФИО - чистим данные.

4й шаг: в каталоге выбираем БД ФНС, выбираем ИНН/ФИО/Дату рождения/номер паспорта.
5й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ФНС по ФИО-дата рождения.
6. Повторяем упражнение 3.

Когда расхождения выявлены (и, желательно, устранены), можем делать связку:
БД ГИБДД, номер прав.ТС/ФИО/Дата рождения/номер паспорта.
БД ФНС, ФИО/Дата рождения/ИНН/сумма налогов за прошлый год / этот год.

И построить необходимую аналитику. А в чем сложность?

во первых сложно связать это порно с изначальной хотелкой
George NordicНапример, есть 10 министерств - МВД там, ФНС, Минтруд , Минстат и т.д.
У каждого есть есть несколько баз.
И хочется видеть единую картину, или иметь возможность быстро получить и сравнить данные их выбранных СУБД: сколько паспортов выдано, сколько стоит на налоговом учете, сколько платит налогов, какие машины зарегистрированы у тех, кто не платит налоги.
что-то мне подсказывает что копировать и очистить целиком базы не увяжется с "возможность быстро получить"

ну и не понято что такое "построить необходимую аналитику". типа репортик на однажды выгруженных данных ? как-то сложно такое связать с изночальным "видеть единую картину"
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869660
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

По поводу костяка вас не обманули, но это не значит, что sonority Attunity делали выходцы из гг. Там не менее перед командой инженеров в Attunity, которые пришли туда за последние лет 5-7, могу снять шляпу. Много соли с ними съели
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869713
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinТам не менее перед командой инженеров в Attunity, которые пришли туда за последние лет 5-7, могу снять шляпу. Много соли с ними съели Передам при встрече. Вопрос, как этот продукт приживется в России - тут и GG и у Informatica хорошие позиции и множество проектов. А заверения "наш CDC всем CDCям CDC!", не подтвержденными реальными проектами в России - звучит как-то... черезчур оптимистично, мягко говоря
БумбарашBig Data Indexing как он естьБумбараш, вот не знаю будете плакать или смеяться, но Qlik разрабатывает и собственный BDI, для связывания данные по своей ассоциативной модели (выявление и индексирование всех возможных связей данных). Натравливается на файл БД, строит модель Qlik с агрегатами, детали извлекаются с помощью ODAG - генерация приложение и загрузка в него данных из БД.H5N1что-то мне подсказывает что копировать и очистить целиком базы не увяжется с "возможность быстро получить"Я специально пример с чисткой данных привел, так как многие этот момент сыдливо опускают. А тут процентов 40% трудозатрат.H5N1во первых сложно связать это порно с изначальной хотелкой... как-то сложно такое связать с изночальным "видеть единую картину"Вот тут не понял. Мне кажется, что, имея подобные инструменты, можно довольно быстро разобраться с незнакомой базой / болотом - про что говорят и Юрий Кудрявцев и kaldorey.

А какие Вы видите альтернативы? Пилить DWH по Data Valut?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39869872
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1так и не вижу ответа на вопрос. предположим в ADWH пусто, никто еще ничего не заказывал перекачать. мне нужно "какие машины зарегистрированы у тех, кто не платит налоги" (тм) откуда у каталога возьмется такая информация?А-а-а, ясно. Тут самое прикольное. Каталогом приятно пользоваться - "запомните этот твит" (с). Когда у тебя на блюдечке "вот списочек машин, БД ГИБДД", "вот ФИО владельца, БД ГИБДД", "а тут соизволите найти ИНН, БД ФНС", а теперь нажмите зелененькую кнопочку (и, при необходимости, укажите частоту обновления данных в вашей ADWH) - и все данные к вам перекочуют - думаю, у аналитиков хватит подготовки чтобы связать данные (а некоторые системы связывают поля автоматом по совпадению в данных) и построить необходимый аналитический отчет.

Тут вопрос в том, а кто из болота тягает бегемота эти данные описывает и говорит что поле N23BDL - это ФИО владельца, а NomerMashyny - это номер гос. регистрации. Волшебные буквы "ML" говорят о том, что каталог будет самостоятельно профилировать данные и ставить подсказки. Но, даже если это и так, все равно остается очень большая работа над метаданными - чтобы прописать или валидировать связку "N23BDL" - это "ФИО владельца транспортного средства" и прописать права доступа. Думаю, тут основная собака трудозатрат и порылась.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39870111
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic,

ну ясно. я просто думал вдруг я что-то глобально пропустил.
по мне это какой-то костыль, когда уже что-то совсем не правильно сделано. имхо логичней сначала поставить задачу, а потом уже начитать выяснять как эти данные доставить в DL и интегрировать в общую модель. а вариант когда аналитик с лева вдруг решил что нафигачить солюшен и накликивает то что хочет, в европе имхо просто нелегально. gdpr требует защитить фио и показывать его лишь тому, кому это совсем необходимо под выполнение конкретной задачи. причем задачи, на которую клент дал дорбро. даже в виде хеша, для скоринга одной услуги можно использовать, для соседней уже нет.
а так да, 100% гарантия что чувак накликает, а потом эксплуатация выяснит, что рядом с полем NomerMashyny еще было булеан поле XpeHb, которое кликальщик должен был учесть.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39870863
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George NordicH5N1, 1й шаг: в каталоге выбираем БД ГИБДД, выбираем номер прав/ФИО/Дату рождения/номер паспорта.
2й шаг: выбираем БД МВД, ФИО/Дату рождения/номер паспорта, связка с БД ГИБДД по ФИО-дата рождения.

Взлетит ли?
В одной базе номер паспорта хранится, начиная с серии, в другой серия отдельно, в третьей часть начинается с N, а часть с # или пробела (потому что приложению так нужно), а в четвертой базе на самом деле не номер паспорта, а номер документа, удостоверяющего личность, например дип паспорт, или какой-нибудь паспорт моряка. 95% работы все равно будет ручной.
...
Рейтинг: 0 / 0
Как включить БД в DataLake?
    #39870964
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик, ага, тут мы и подошли к тому что говорит H5N1 и стыдливо умалчивают маркетологи. Это ж все геймификация / симплификация, миллиеналы и прочие "гражданские аналитики". Т.е. задача специалиста - подготовить им эти "Магазины данных" и права настроить, чтобы он случаем ФИО не увидел, если ему не положено.

Т.е. начинаем с простого - это неплохой инструмент для аналитика (ИТ-специалиста), что бы разобраться с новыми источниками данных. Но как это сейчас позиционируется - для конечных пользователей - это адова работа для тех же специалистов, которых заставят разбираться с источниками и готовить витрины, пригодные для использования конечными пользователями. И если юзер выбрал не валидное поле или не обратил внимание на галочку "expired" или "do not use", то вопросы будут задавать не им, а тем кто готовил витрины.

Но, в любом случае, я пока больше плюсов вижу.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Период между сообщениями больше года.
Как включить БД в DataLake?
    #40044780
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хорошая новость для тех, кто хочет поиграться с каталогом и понять, для чего он нужен. Qlik включил решение Data Catalog в свою облачную версию Qlik Sense SaaS. Есть 45 дней триал, можно зарегистрироваться и посмотреть как это работает. Смысл простой - кидаешь в облако / коннектишь кучу файлов, проходишь и профайлером и готовишь "магазин данных", разрешая / запрещая видимость данных по ролям. Потом пользователь открывает список таблиц и полей с описанием + видено насколько данные чистые и как часто к ним обращаются, и может накидать себе в модель то что ему понравилось.

Я думаю, что прочие решения не сильно отличаются, так что кто хочет бесплатно пощупать руками что это за звери Data Catalog - велкам. С регистрацией, но без SMS

С Уважением,
Георгий
...
Рейтинг: 0 / 0
10 сообщений из 35, страница 2 из 2
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как включить БД в DataLake?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали тему (1): Анонимы (1)
Читали форум (1): Анонимы (1)
Пользователи онлайн (7): Анонимы (5), Bing Bot, Yandex Bot 1 мин.
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]