Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Домашний проект, DWH / 25 сообщений из 33, страница 1 из 2
10.06.2019, 02:54
    #39824720
Safro_nov
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Приветствую.

Изучаю хранилища данных. Самостоятельно. Перспектив работать в этой сфере в моем регионе нет. Решил сделать pet-проект. Для будущего портфолию и чтобы хоть где-то применять информацию, иначе забывается. Прочел пар книг (или чуть больше), прошел пару курсов.

На базе каких ресурсов лучше делать домашний проект? Информации по DWH (в отличие от БД) мало. В основном вижу только инфу по теоретическому проектированию. По фактической реализации - пробелы и много вопросов. В учебниках для уч. заведений описан более высокий уровень абстракции, чем мне нужно.

Гугл выдает инфу преимущественно про самодельные облачные хранилища.

Сейчас читаю Сарка "Microsoft SQL Server 2012. Реализация хранилищ данных." На очереди Ларсон "Разработка бизнес-аналитики в Microsoft SQL Server 2005". Нашел их благодаря этому форуму сегодня, чему очень рад.

Может еще есть полезные источники информации по моей задаче?
...
Рейтинг: 0 / 0
10.06.2019, 10:23
    #39824809
Alex_496
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Safro_nov,

У Microsoft есть Fast Track по хранилищам данных.
Есть также база данных и учебный проект Adventure Works
...
Рейтинг: 0 / 0
10.06.2019, 12:20
    #39824893
Гулин Федор
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Safro_nov,

Если по T-SQL
я рекомендую Ицика Бен Гана и Grant Frichley
Есть на одном небезизвестном сайте = правда увы не последние версии
(сам бы полседние )
но книжки оч.толковые

Если вдруг по табуляр модели SSAS
то тройка
Марко Руссо + Крис Веббер + еще кто-то

По 2012 версии точно есть там же

+ блоги Криса Веббера - там и MDM и Tabular
...
Рейтинг: 0 / 0
10.06.2019, 16:48
    #39825031
sergeyns
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Safro_novИзучаю хранилища данных. Самостоятельно. Перспектив работать в этой сфере в моем регионе нет.
Зачем? Хайп на это уже прошел.

Сейчас рулят мышинное обучение и прочий DataScience
Даже судя по этому форуму, многие BI-айшики и около-того переключились туды.
...
Рейтинг: 0 / 0
10.06.2019, 16:58
    #39825038
Alex_496
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
sergeyns,

1) регуляторка и управл. отчетность юзает DWH и BI,
2) а мышинное обучение & DataScience - это для другого

Так что кто хорошо обслуживает потребности 1), то живет неплохо среди работающих лопатами
...
Рейтинг: 0 / 0
10.06.2019, 18:05
    #39825061
vikkiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
sergeyns,

в дополнение к Alex_496 выше:
не переключились а расширили покрытие услуг
т.к. требования рынка изменились и ушли больше в Advanced сторону
(где уже не BI, а тот самый DS/ML)

классический BI покрывает только очень малую часть нынешних требований по данным,
иначе организация просто становится неконкурентоспособной на рынке (и теряет его)
соответственно и рост спроса к разработчикам на покрытие более широких требований.
...
Рейтинг: 0 / 0
10.06.2019, 18:08
    #39825064
Гулин Федор
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
vikkiv,
ух ты
а если касательно MS стэка
что там будет во 2 части ??
...
Рейтинг: 0 / 0
10.06.2019, 18:12
    #39825067
Alex_496
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
vikkiv,

да, этот слайд - легенда для C-Levels,
а на земле все еще:
куча технического долга,
штучные экземпляры Power Users,
отчетность для того, чтобы была,
принятие решений "три П" типа на данных
...
Рейтинг: 0 / 0
10.06.2019, 18:12
    #39825068
Safro_nov
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
sergeynsСейчас рулят мышинное обучение и прочий DataScience
Даже судя по этому форуму, многие BI-айшики и около-того переключились туды.
Математика нужна такая, которой мне не завезли в юности. А теперь тем более не догоню.
Если б не этот фактор - анализ данных очень интересная тема.
...
Рейтинг: 0 / 0
10.06.2019, 18:21
    #39825073
Safro_nov
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
sergeynsСейчас рулят мышинное обучение и прочий DataScience
Если про ИИ говорить, про нейросети и всякое там машинное зрение - по ощущениям, уже на уровне джуна молодые специалисты имеют серьезную подготовку. Отсюда автоматически порог вхождения в отрасль задирается до неприличного уровня.

В 35 лет таким интересоваться, имхо, бесперспективно.
...
Рейтинг: 0 / 0
10.06.2019, 18:22
    #39825075
StarikNavy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
...
Рейтинг: 0 / 0
10.06.2019, 18:33
    #39825080
vikkiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Гулин Федора если касательно MS стэка
что там будет во 2 части ??

сложно сказать, от зависит от выбранного пути (часто организацией в которой работают) на свой риск
хотя у меня часто бывает возможность подкорректировать выбор/развитие в политике компании, разными аргументами
(будущие перспективы и стабильность продукта, его готовность к рынку, риски и размер/вес того кто за ним стоит, наличие на рынке трудового ресурса на поддержание и пр.)

MS с Azure перестал эксклюзивно только себя продвигать, в MicroSoft Data Platform Ecosystem добавили сначала R
(сначала в SQL Server 2016, потом отдельно Microsoft Machine Learning Server),
затем Python (SQL 2017), теперь и Java понемногу идёт (SQL 2019)
тот-же Hadoop с Azure Data Lake / ADLS, DataBricks вместе со Spark, в общем не уследишь уже..

Я вроде только в R/RevoScaler и C# залез - у них повыскакивало .NET/ML , Auto ML (но всё очень сырое пока), больше скос в сторону C++
теперь оказывается многие ML продукты заточены под Python (т.е. без R)

в общем не лёгкие времена для разработчиков настают - по технологиям взрыв в ширину получается,
уже выехать на высокой специализации в одной-двух технологиях весьма не просто,
к тому-же частые переходы технологий с ускоряющимся циклом
(мало времени на полноценное освоение, короткий жизненный интервал у технологии)
т.е. только стал специалистом - знания уже идут в утиль и на рынке новый хайп..

в РФ риск по санкциям пока (ну и на будущее урок по зависимостям) - так что с облаками лет 10 будут аккуратней двигаться
...
Рейтинг: 0 / 0
10.06.2019, 18:54
    #39825086
vikkiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Alex_496...да, этот слайд - легенда для C-Levels,
а на земле все еще: ...
ну да, более простое от SQL, DWH и пр. пока никуда не уходит и всё это по любому кому-то надо делать,
требования просто растут в ширину, большая производительность труда нужна.

да и смысл в это лезть C-Levels если низы не могут это технически реализовать?
синергично/сбалансированно надо чтобы в результате работало, иначе смысла нет.
...
Рейтинг: 0 / 0
10.06.2019, 19:32
    #39825098
Safro_nov
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
vikkivну да, более простое от SQL, DWH и пр. пока никуда не уходит и всё это по любому кому-то надо делать, требования просто растут в ширину, большая производительность труда нужна.
О каких, ориентировочно, технологиях идет речь?
С чем в среднем приходить собеседоваться на джуна?
...
Рейтинг: 0 / 0
10.06.2019, 22:40
    #39825127
Alex_496
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
vikkivк тому-же частые переходы технологий с ускоряющимся циклом
(мало времени на полноценное освоение, короткий жизненный интервал у технологии)
т.е. только стал специалистом - знания уже идут в утиль и на рынке новый хайп..

вот именно, гонки за хайпом,
а бизнес все еще, образно говоря, на Excel-ях живет при обилии ERP, CRM, WMS и прочих магнитах техн. долгов
...
Рейтинг: 0 / 0
10.06.2019, 22:48
    #39825131
Alex_496
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
...
Рейтинг: 0 / 0
12.06.2019, 15:19
    #39825762
L_argo
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Alex_496вот именно, гонки за хайпом,
а бизнес все еще, образно говоря, на Excel-ях живет при обилии ERP, CRM, WMS и прочих магнитах техн. долговХайп на ERP, CRM, WMS тоже как-то прошел. Активность по профильным форумам упала десятки раз.
При том, что тема по сути вечная и будет нужна всегда.
...
Рейтинг: 0 / 0
12.06.2019, 17:18
    #39825801
Бумбараш
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Safro_nov
В 35 лет таким интересоваться, имхо, бесперспективно.
я в 35 вроде вкатился, но не в регионах
на каггле есть дед из красноярска, который в топ-100 входит или около того

хотя хз, какой у него бэкграунд, может он 30 лет до этого только статистикой и занимался
...
Рейтинг: 0 / 0
12.06.2019, 18:50
    #39825825
Бумбараш
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
вообще в теме data в плане хоронилищ и около сейчас лучше всего в РФ вкатываться в bigdata, которое на стэке hadoop.

Тема развивается, зарплаты там больше, можно например, иметь 200-300к, тогда как в традиционном стеке на 50к меньше. Стэк хадупа в крупных конторах в области хоронилищ увеличивает свою долю относительно традиционного. Развитое сообщество. В телеге чаты\каналы по 1к+ участников. На каждый продукт хадупа по чату с 200-500 участников.

Это на этом форуме ничего нет, так как Гаджимурадов на просьбу создания раздела по DS сказал "а зачем это?". В его мире делфи никакого DS не существует.

В плане денег DE (data engineer) получает столько же сколько DS (data scientist) примерно. Причем в районе 200к я думаю ему даже проще получить, чем DS. На большие деньги в DS ты на собеседовании скорее всего сядешь перед двумя малолетними физтехами, которые попросят для начала несколько проходов нейросети с градиентным спуском расписать в матричном виде, а потом какими-нибудь шадовскими задачками будут трахать.
...
Рейтинг: 0 / 0
13.06.2019, 00:32
    #39825883
Safro_nov
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
БумбарашSafro_novВ 35 лет таким интересоваться, имхо, бесперспективно.
я в 35 вроде вкатился, но не в регионах
на каггле есть дед из красноярска, который в топ-100 входит или около того

хотя хз, какой у него бэкграунд, может он 30 лет до этого только статистикой и занимался
Читал давно на Хабре историю 40-летнего вкатившегося. Но у него, вроде, экономическая работа была до этого = мат./аналит. подготовка.

Возможно, ошибаюсь. Есть ощущение, что некоторое время назад вкатываться в ИТ было проще. Многие пишут, что теперешний эникейщик был по уровню тогдашнего сис. админа. По другим направлениям отзывы похожи. Тем более, рынок насыщается спецами и по мере этого процесса требования возрастают и конкуренция усиливается. Если через 5 лет ШАДовскими задачками трахать начнут джунов - я не сильно удивлюсь.

Бумбараш , огромная благодарность вам.
Я сейчас думаю хотя бы устроиться в ИТ, потом корректировать траекторию. Иначе, вне отрасли мысленная погоня за 200к смешно выглядит.
Спасибо!
...
Рейтинг: 0 / 0
29.06.2019, 16:46
    #39831891
rang14
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Если по MS стеку, то можно свои проекты делать, постепенно осваивая:
1) PowerBI
2) SSIS + PowerBI
3) SSIS + SQL Server + PowerBI
4) SSIS + SQL Server + SSAS Tabular + PowerBI

SSAS Multidimensional - уже нет смысла изучать.
На третьем пункте - уже достаточно для джуна.
Биг даты, хадупы, ML, Azure - это все потом уже можно.
...
Рейтинг: 0 / 0
29.06.2019, 18:41
    #39831924
Ares_ekb
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
rang14,

просто интересно, если не секрет :) Вы в Екб занимаетесь DWH, есть интересные проекты, норм зарплаты?


На мой взгляд SSIS - зло. У него есть как бы "плюсы":
- наглядность (на диаграммах лучше видно, что откуда и куда передается)
- простота (должно быть просто для аналитика)
- интеграция с MS SQL (настройка периодического запуска задач по передаче данных)

Но по факту если хоть чуть-чуть сложная логика обмена данными, то плюсы оказываются минусами:
- диаграммы перестают быть наглядными
- рисовать их становится очень сложно (даже тупо накликакть мапинг полей из одной таблицы в другую - очень муторно, а если ещё писать какой-то код, то вообще жесть)
- не всегда есть права доступа для настройки таких задач

Я обычно фигачу мапинги из одной схемы данных в другую на C# (.NET Core) и запускаю под IIS:
- логика может быть сколь угодно сложная
- очень много повторно используемого кода (типа найти в справочнике запись по названию и если её нет, то создать новую - благодаря EntityFramework и generic'ам пишется один раз под любой справочник)
- очень легко всё это сопровождать (100-300 строк кода, не считая повторно используемого)
- легко реализовывать разные схемы кеширования данных для повышения производительности (например, при первом обращении к справочнику полностью его загружаем и дальше работаем только с кешем, или, например, выгружаем одним запросом из основной таблицы идентификаторы добавляемых/изменяемых/удаляемых записей, сохраняем их в HashSet и по нему проверяем есть уже такая запись или нет и т.п.), разные схемы инкрементальной загрузки данных
- легко деплоить (просто копируем по FTP на сервер заказчика)

Вообще не вижу сценариев, когда стоило бы использовать SSIS. Я сам им пользовался и тогда он казался мне норм. Но сейчас по доброй воле точно не буду. Например, вот:
- логика по импорту гос. реестра лекарственных средств
- по импорту предельных цен
- импорт/экспорт из базы товарных накладных
- тут всякая повторно используемая логика типа "T FindOrCreate<T>(string name)" и т.п.

На много проще в коде написать, что такое-то поле равно такому-то, чем накликивать это мышкой в SSIS.

Данные в этих двух гос. реестрах очень замусоренные, денормализованные, с полностью дублирующимися записями - вообще не представляю как это всё можно было бы реализовать на SSIS, да, ещё чтобы оно быстро работало и инкрементально добавляло записи без первичных ключей в исходном реестре.

Некуда излить свою боль, изолью сюда :) Там по ссылке демка проекта, которую делал для одного заказчика. Недели 2 на неё потратил, был готов на них бесплатно работать ещё месяц, чтобы доделать полностью один из модулей их системы и убедить их, что за полгода можно поднять на качественно новый уровень всю ту жесть, которую они написали за последние 20 лет. Но не срослось.
...
Рейтинг: 0 / 0
29.06.2019, 20:24
    #39831948
rang14
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Ares_ekbпросто интересно, если не секрет :) Вы в Екб занимаетесь DWH, есть интересные проекты, норм зарплаты?
Территориально я в Екб, работаю удаленно.

Ares_ekbВообще не вижу сценариев, когда стоило бы использовать SSIS.
Более менее простые маппинги отлично делаются на SSIS. Например у меня сейчас используется 2 SSIS пакета для всех загрузок из десятков REST API. Я как есть вставляю ответ от API в Staging, а уже при копировании из Staging в DWH, разбираю json/xml с помощью SQL в хранимой процедуре. Это самый быстрый в разработке способ. При небольших объемах - проблем нет.
...
Рейтинг: 0 / 0
01.07.2019, 14:21
    #39832282
alexdr
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
Ares_ekbrang14,

На мой взгляд SSIS - зло.
[skipped...]
Вообще не вижу сценариев, когда стоило бы использовать SSIS.
Вероятнее всего, этот от того, что Вы не научились его (SSIS) готовить.
...
Рейтинг: 0 / 0
01.07.2019, 17:10
    #39832419
Ares_ekb
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Домашний проект, DWH
alexdr,

"умение готовить SSIS" - эта какая-то абстракция. Я привел совершенно конкретные доводы, почему его не удобно использовать.

Я пару лет накликивал на нём мышкой разные диаграммы - сколько ещё нужно времени, чтобы постичь вселенскую гениальность SSIS? Вроде не тупой, честно, за это же время Isabelle HOL научился готовить , который немного сложнее, чем SSIS :)
...
Рейтинг: 0 / 0
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Домашний проект, DWH / 25 сообщений из 33, страница 1 из 2
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]