|
|
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Приветствую. Изучаю хранилища данных. Самостоятельно. Перспектив работать в этой сфере в моем регионе нет. Решил сделать pet-проект. Для будущего портфолию и чтобы хоть где-то применять информацию, иначе забывается. Прочел пар книг (или чуть больше), прошел пару курсов. На базе каких ресурсов лучше делать домашний проект? Информации по DWH (в отличие от БД) мало. В основном вижу только инфу по теоретическому проектированию. По фактической реализации - пробелы и много вопросов. В учебниках для уч. заведений описан более высокий уровень абстракции, чем мне нужно. Гугл выдает инфу преимущественно про самодельные облачные хранилища. Сейчас читаю Сарка "Microsoft SQL Server 2012. Реализация хранилищ данных." На очереди Ларсон "Разработка бизнес-аналитики в Microsoft SQL Server 2005". Нашел их благодаря этому форуму сегодня, чему очень рад. Может еще есть полезные источники информации по моей задаче? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 02:54 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Safro_nov, У Microsoft есть Fast Track по хранилищам данных. Есть также база данных и учебный проект Adventure Works ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 10:23 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Safro_nov, Если по T-SQL я рекомендую Ицика Бен Гана и Grant Frichley Есть на одном небезизвестном сайте = правда увы не последние версии (сам бы полседние ) но книжки оч.толковые Если вдруг по табуляр модели SSAS то тройка Марко Руссо + Крис Веббер + еще кто-то По 2012 версии точно есть там же + блоги Криса Веббера - там и MDM и Tabular ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 12:20 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Safro_novИзучаю хранилища данных. Самостоятельно. Перспектив работать в этой сфере в моем регионе нет. Зачем? Хайп на это уже прошел. Сейчас рулят мышинное обучение и прочий DataScience Даже судя по этому форуму, многие BI-айшики и около-того переключились туды. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 16:48 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
sergeyns, 1) регуляторка и управл. отчетность юзает DWH и BI, 2) а мышинное обучение & DataScience - это для другого Так что кто хорошо обслуживает потребности 1), то живет неплохо среди работающих лопатами ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 16:58 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
sergeyns, в дополнение к Alex_496 выше: не переключились а расширили покрытие услуг т.к. требования рынка изменились и ушли больше в Advanced сторону (где уже не BI, а тот самый DS/ML) классический BI покрывает только очень малую часть нынешних требований по данным, иначе организация просто становится неконкурентоспособной на рынке (и теряет его) соответственно и рост спроса к разработчикам на покрытие более широких требований. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 18:05 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
vikkiv, ух ты а если касательно MS стэка что там будет во 2 части ?? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 18:08 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
vikkiv, да, этот слайд - легенда для C-Levels, а на земле все еще: куча технического долга, штучные экземпляры Power Users, отчетность для того, чтобы была, принятие решений "три П" типа на данных ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 18:12 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
sergeynsСейчас рулят мышинное обучение и прочий DataScience Даже судя по этому форуму, многие BI-айшики и около-того переключились туды. Математика нужна такая, которой мне не завезли в юности. А теперь тем более не догоню. Если б не этот фактор - анализ данных очень интересная тема. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 18:12 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
sergeynsСейчас рулят мышинное обучение и прочий DataScience Если про ИИ говорить, про нейросети и всякое там машинное зрение - по ощущениям, уже на уровне джуна молодые специалисты имеют серьезную подготовку. Отсюда автоматически порог вхождения в отрасль задирается до неприличного уровня. В 35 лет таким интересоваться, имхо, бесперспективно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 18:21 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Гулин Федора если касательно MS стэка что там будет во 2 части ?? сложно сказать, от зависит от выбранного пути (часто организацией в которой работают) на свой риск хотя у меня часто бывает возможность подкорректировать выбор/развитие в политике компании, разными аргументами (будущие перспективы и стабильность продукта, его готовность к рынку, риски и размер/вес того кто за ним стоит, наличие на рынке трудового ресурса на поддержание и пр.) MS с Azure перестал эксклюзивно только себя продвигать, в MicroSoft Data Platform Ecosystem добавили сначала R (сначала в SQL Server 2016, потом отдельно Microsoft Machine Learning Server), затем Python (SQL 2017), теперь и Java понемногу идёт (SQL 2019) тот-же Hadoop с Azure Data Lake / ADLS, DataBricks вместе со Spark, в общем не уследишь уже.. Я вроде только в R/RevoScaler и C# залез - у них повыскакивало .NET/ML , Auto ML (но всё очень сырое пока), больше скос в сторону C++ теперь оказывается многие ML продукты заточены под Python (т.е. без R) в общем не лёгкие времена для разработчиков настают - по технологиям взрыв в ширину получается, уже выехать на высокой специализации в одной-двух технологиях весьма не просто, к тому-же частые переходы технологий с ускоряющимся циклом (мало времени на полноценное освоение, короткий жизненный интервал у технологии) т.е. только стал специалистом - знания уже идут в утиль и на рынке новый хайп.. в РФ риск по санкциям пока (ну и на будущее урок по зависимостям) - так что с облаками лет 10 будут аккуратней двигаться ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 18:33 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Alex_496...да, этот слайд - легенда для C-Levels, а на земле все еще: ... ну да, более простое от SQL, DWH и пр. пока никуда не уходит и всё это по любому кому-то надо делать, требования просто растут в ширину, большая производительность труда нужна. да и смысл в это лезть C-Levels если низы не могут это технически реализовать? синергично/сбалансированно надо чтобы в результате работало, иначе смысла нет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 18:54 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
vikkivну да, более простое от SQL, DWH и пр. пока никуда не уходит и всё это по любому кому-то надо делать, требования просто растут в ширину, большая производительность труда нужна. О каких, ориентировочно, технологиях идет речь? С чем в среднем приходить собеседоваться на джуна? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 19:32 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
vikkivк тому-же частые переходы технологий с ускоряющимся циклом (мало времени на полноценное освоение, короткий жизненный интервал у технологии) т.е. только стал специалистом - знания уже идут в утиль и на рынке новый хайп.. вот именно, гонки за хайпом, а бизнес все еще, образно говоря, на Excel-ях живет при обилии ERP, CRM, WMS и прочих магнитах техн. долгов ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.06.2019, 22:40 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Alex_496вот именно, гонки за хайпом, а бизнес все еще, образно говоря, на Excel-ях живет при обилии ERP, CRM, WMS и прочих магнитах техн. долговХайп на ERP, CRM, WMS тоже как-то прошел. Активность по профильным форумам упала десятки раз. При том, что тема по сути вечная и будет нужна всегда. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.06.2019, 15:19 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Safro_nov В 35 лет таким интересоваться, имхо, бесперспективно. я в 35 вроде вкатился, но не в регионах на каггле есть дед из красноярска, который в топ-100 входит или около того хотя хз, какой у него бэкграунд, может он 30 лет до этого только статистикой и занимался ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.06.2019, 17:18 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
вообще в теме data в плане хоронилищ и около сейчас лучше всего в РФ вкатываться в bigdata, которое на стэке hadoop. Тема развивается, зарплаты там больше, можно например, иметь 200-300к, тогда как в традиционном стеке на 50к меньше. Стэк хадупа в крупных конторах в области хоронилищ увеличивает свою долю относительно традиционного. Развитое сообщество. В телеге чаты\каналы по 1к+ участников. На каждый продукт хадупа по чату с 200-500 участников. Это на этом форуме ничего нет, так как Гаджимурадов на просьбу создания раздела по DS сказал "а зачем это?". В его мире делфи никакого DS не существует. В плане денег DE (data engineer) получает столько же сколько DS (data scientist) примерно. Причем в районе 200к я думаю ему даже проще получить, чем DS. На большие деньги в DS ты на собеседовании скорее всего сядешь перед двумя малолетними физтехами, которые попросят для начала несколько проходов нейросети с градиентным спуском расписать в матричном виде, а потом какими-нибудь шадовскими задачками будут трахать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.06.2019, 18:50 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
БумбарашSafro_novВ 35 лет таким интересоваться, имхо, бесперспективно. я в 35 вроде вкатился, но не в регионах на каггле есть дед из красноярска, который в топ-100 входит или около того хотя хз, какой у него бэкграунд, может он 30 лет до этого только статистикой и занимался Читал давно на Хабре историю 40-летнего вкатившегося. Но у него, вроде, экономическая работа была до этого = мат./аналит. подготовка. Возможно, ошибаюсь. Есть ощущение, что некоторое время назад вкатываться в ИТ было проще. Многие пишут, что теперешний эникейщик был по уровню тогдашнего сис. админа. По другим направлениям отзывы похожи. Тем более, рынок насыщается спецами и по мере этого процесса требования возрастают и конкуренция усиливается. Если через 5 лет ШАДовскими задачками трахать начнут джунов - я не сильно удивлюсь. Бумбараш , огромная благодарность вам. Я сейчас думаю хотя бы устроиться в ИТ, потом корректировать траекторию. Иначе, вне отрасли мысленная погоня за 200к смешно выглядит. Спасибо! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.06.2019, 00:32 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Если по MS стеку, то можно свои проекты делать, постепенно осваивая: 1) PowerBI 2) SSIS + PowerBI 3) SSIS + SQL Server + PowerBI 4) SSIS + SQL Server + SSAS Tabular + PowerBI SSAS Multidimensional - уже нет смысла изучать. На третьем пункте - уже достаточно для джуна. Биг даты, хадупы, ML, Azure - это все потом уже можно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.06.2019, 16:46 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
rang14, просто интересно, если не секрет :) Вы в Екб занимаетесь DWH, есть интересные проекты, норм зарплаты? На мой взгляд SSIS - зло. У него есть как бы "плюсы": - наглядность (на диаграммах лучше видно, что откуда и куда передается) - простота (должно быть просто для аналитика) - интеграция с MS SQL (настройка периодического запуска задач по передаче данных) Но по факту если хоть чуть-чуть сложная логика обмена данными, то плюсы оказываются минусами: - диаграммы перестают быть наглядными - рисовать их становится очень сложно (даже тупо накликакть мапинг полей из одной таблицы в другую - очень муторно, а если ещё писать какой-то код, то вообще жесть) - не всегда есть права доступа для настройки таких задач Я обычно фигачу мапинги из одной схемы данных в другую на C# (.NET Core) и запускаю под IIS: - логика может быть сколь угодно сложная - очень много повторно используемого кода (типа найти в справочнике запись по названию и если её нет, то создать новую - благодаря EntityFramework и generic'ам пишется один раз под любой справочник) - очень легко всё это сопровождать (100-300 строк кода, не считая повторно используемого) - легко реализовывать разные схемы кеширования данных для повышения производительности (например, при первом обращении к справочнику полностью его загружаем и дальше работаем только с кешем, или, например, выгружаем одним запросом из основной таблицы идентификаторы добавляемых/изменяемых/удаляемых записей, сохраняем их в HashSet и по нему проверяем есть уже такая запись или нет и т.п.), разные схемы инкрементальной загрузки данных - легко деплоить (просто копируем по FTP на сервер заказчика) Вообще не вижу сценариев, когда стоило бы использовать SSIS. Я сам им пользовался и тогда он казался мне норм. Но сейчас по доброй воле точно не буду. Например, вот: - логика по импорту гос. реестра лекарственных средств - по импорту предельных цен - импорт/экспорт из базы товарных накладных - тут всякая повторно используемая логика типа "T FindOrCreate<T>(string name)" и т.п. На много проще в коде написать, что такое-то поле равно такому-то, чем накликивать это мышкой в SSIS. Данные в этих двух гос. реестрах очень замусоренные, денормализованные, с полностью дублирующимися записями - вообще не представляю как это всё можно было бы реализовать на SSIS, да, ещё чтобы оно быстро работало и инкрементально добавляло записи без первичных ключей в исходном реестре. Некуда излить свою боль, изолью сюда :) Там по ссылке демка проекта, которую делал для одного заказчика. Недели 2 на неё потратил, был готов на них бесплатно работать ещё месяц, чтобы доделать полностью один из модулей их системы и убедить их, что за полгода можно поднять на качественно новый уровень всю ту жесть, которую они написали за последние 20 лет. Но не срослось. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.06.2019, 18:41 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Ares_ekbпросто интересно, если не секрет :) Вы в Екб занимаетесь DWH, есть интересные проекты, норм зарплаты? Территориально я в Екб, работаю удаленно. Ares_ekbВообще не вижу сценариев, когда стоило бы использовать SSIS. Более менее простые маппинги отлично делаются на SSIS. Например у меня сейчас используется 2 SSIS пакета для всех загрузок из десятков REST API. Я как есть вставляю ответ от API в Staging, а уже при копировании из Staging в DWH, разбираю json/xml с помощью SQL в хранимой процедуре. Это самый быстрый в разработке способ. При небольших объемах - проблем нет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.06.2019, 20:24 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
Ares_ekbrang14, На мой взгляд SSIS - зло. [skipped...] Вообще не вижу сценариев, когда стоило бы использовать SSIS. Вероятнее всего, этот от того, что Вы не научились его (SSIS) готовить. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.07.2019, 14:21 |
|
||
|
Домашний проект, DWH
|
|||
|---|---|---|---|
|
#18+
alexdr, "умение готовить SSIS" - эта какая-то абстракция. Я привел совершенно конкретные доводы, почему его не удобно использовать. Я пару лет накликивал на нём мышкой разные диаграммы - сколько ещё нужно времени, чтобы постичь вселенскую гениальность SSIS? Вроде не тупой, честно, за это же время Isabelle HOL научился готовить , который немного сложнее, чем SSIS :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.07.2019, 17:10 |
|
||
|
|

start [/forum/topic.php?fid=49&msg=39825127&tid=1857556]: |
0ms |
get settings: |
9ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
74ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
54ms |
get tp. blocked users: |
1ms |
| others: | 14ms |
| total: | 186ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...