|
|
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
Доброго дня! Пишу с целью получить знания более опытных коллег. Сейчас находимся на этапе разработки хранилища данных. Проблема в том, что разработка начинается из-за неудачного опыта с так называемыми аутсорсерами, которые не смогли. Разработали полумодель данных, на которых уже ретивые аналитики настроили машинное обучение и некоторые витринки. Дальше было решено делать хранилище собственными силами. Разумом было поглощено много тем, из которых сделан вывод, что: - стоит грузануть исходные данные в первый слой как есть; - разработать корпоративную модель данных с историчностью; - из КМД строить уже нужные витринки для различных подразделений, причем предусмотреть возможность drill-down(пока непонятно как) - оставить возможность разработки метаданных, так как они нужны будут потом для того же самого drill-down; - оставить возможность для late data arriving - пока не загружать факты до пришедших измерений, но потом можно будет генерить фиктивные ключи и записи для обеспечения доступа к данным; Проблема в том, что бизнес хочет уже сейчас так, как было настроено там, ведь уже рабочие процессы есть. Собственно вопросы: - как сопротивляться agile разработке, если нужен результат, и обеспечить дальнейшую гибкость системы? - как обосновывать ресурсные затраты человекочасов и человеколюдей, если "там уже есть таблички ведь, давай грузанем также", если данные загружены сейчас как набор витрин, некоторые из которых вообще без историчности. Это при том, что я вижу голодные пасти совершенно других подразделений со своими запросами в другой плоскости. Пока решил, что сбоку пристрою текущую модель, и параллельно попытаюсь сделать "правильно". Может у кого-то есть опыт в таком? И может кто скажет общие выводы, а то с английским пытаюсь дружить, но недостаточно пока что. DAMA DMBOK - это что-то вроде списка наборов знаний по управлению данными? Что насчет TOGAF, MIKE2.0? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.12.2016, 00:20 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
kaldoreyи параллельно попытаюсь сделать "правильно".совсем не понятно чем вас не устаивает текущее решение.kaldoreyесли данные загружены сейчас как набор витрин, некоторые из которых вообще без историчностит.е. вам сделали "по Кимбаллу"? и опять таки, чем не устраивает? Про историчность... а в ТЗ была указана историчность? kaldoreyDAMA DMBOK - это что-то вроде списка наборов знаний по управлению данными? Что насчет TOGAF, MIKE2.0?имхо, вы лезете туда "где космические корабли бороздят ..." без элементарных знаний (ну по крайней мере такое впечатление производит ваш текст) kaldorey- как сопротивляться agile разработке, если нужен результат, и обеспечить дальнейшую гибкость системы?ну как сопротивляться... говорите, что мол я не умею строить ХД по аджайлу kaldoreyкак обосновывать ресурсные затраты человекочасов и человеколюдей, если "там уже есть таблички ведь, давай грузанем также"для начала определите, какие бизнес задачи вы не можете решать без вложений этих человекочасов (только объективно, а не просто по тому, что вам что то не нравится). Любая переделка это затраты для бизнеса (а с проектами ХД это довольно большие затраты). Далее так и говорите бизнесу "мол, в текущем решении мы не можем делать бюджетирование и прогнозы спроса, хотите такой функционал? это будет стоить 2 ляма и 6 месяцев, запускаем проект?" ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.12.2016, 03:18 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
Дедушкасовсем не понятно чем вас не устаивает текущее решение. Скорее всего изначально хранилка делалась для одной задачи, и даже для ее развития пришлось тянуть отдельно историчность нескольких параметров этих витринок. Если продолжать затягивать данные таким образом, сбоку, система превратится в фавелы. Дедушка без элементарных знаний Пожалуйста, дополните, если не сложно, минимальный список элементарных знаний, которые необходимо получить. Статей и книг очень много, тяжело выбрать, с чего начать. Сейчас изучены основные принципы, назначение и некоторые реализации по Кимбаллу, по Инмону, различие в их подходах, их мнение друг о друге. Также прочитаны статьи, где описывалось внедрение в разных организациях, и на какие проблемы натыкались в это время, какие решения использовались. На тему общения с бизнесом ответы, кажется получил, спасибо ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.12.2016, 08:36 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
kaldorey, Начните с того, что сядmте и прочитайте. https://www.amazon.com/Data-Warehouse-Lifecycle-Toolkit/dp/0470149779 Основная проблема при разработке хранилищ в том, что люди которые имеют опыт в OLTP разработке начинают считать, что они все понимают про разработку хранилищ. И не имея понимания правильных методологий начинают наступать на давным давно известные грабли. Особенно моё замечание касается OLTP разработчиков со стажем имеющих опыт в разработке нагруженных систем. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.12.2016, 14:27 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
[quot kaldorey]Доброго дня! - стоит грузануть исходные данные в первый слой как есть; - разработать корпоративную модель данных с историчностью; - из КМД строить уже нужные витринки для различных подразделений, причем предусмотреть возможность drill-down(пока непонятно как) - оставить возможность разработки метаданных, так как они нужны будут потом для того же самого drill-down; - оставить возможность для late data arriving - пока не загружать факты до пришедших измерений, но потом можно будет генерить фиктивные ключи и записи для обеспечения доступа к данным; В основе хранилища лежит ETL. Exctract Transform Load Сначала вы забираете данные как есть и кладёте их в STAGE (буферную область). Потом вы их трансформируете их в нужный вид (Схему звезда или снежинку). Или Иную форму. Затем вы загружаете их в витрины (от которых работаю отчеты, кубы, модели и т.п. ) Transform и Load могут иметь несколько этапов. В общем почитайте книгу. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.12.2016, 14:31 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
kaldorey, Разработать стратегию, план проекта и согласовывать документ на уровне Руководства компании. Без стратегии и защиты проекта - это будет поделка, "ну типа вы там сами разберитесь, но мы вас будем push-ить". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.12.2016, 14:35 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
Вот вам статья с хабра для формирования правильных вопросов - https://habrahabr.ru/post/281553/ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.12.2016, 14:55 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
soulsurfer, плач Ярославны, не более. Почему? Посмотрите как рассуждают ДАМ и Греф...ну вы поняли. Нет? ну тогда посмотрите как ЛПР перемещаются из конторы в контору, ну вы поняли. Нет? да нужно им ваше ДВХ как средство себя позиционировать, а то и вовсе как пятое колесо собаке ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.12.2016, 18:50 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
kaldorey- как сопротивляться agile разработке, если нужен результат, и обеспечить дальнейшую гибкость системы? Попробуйте посмотреть в сторону KANBAN (если я правильно понял вопрос). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.12.2016, 17:47 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
без модели данных любое Data Lake превратится в Data болото. Только опытные специалисты, коллектив, разделение труда, погружение в предметную область, стоять на своём и пахать, пахать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.12.2016, 18:05 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
Alex_496без модели данных любое Data Lake превратится в Data болото.вменяемое озеро видел только на AWSе (есть инструменты для его создания), а самописные это в сад в сад... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.12.2016, 17:31 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
kaldorey Проблема в том, что разработка начинается из-за неудачного опыта с так называемыми аутсорсерами, которые не смогли. Разработали полумодель данных, на которых уже ретивые аналитики настроили машинное обучение и некоторые витринки. Аутсорссерам премию. Ибо они смогли сделать УЖЕ работающий прототип, на котором УЖЕ можно строить модели машинного обучения. Классически я так думаю, с "правильным" подходом, к торому, вы тяготеете судя по всему, аналитики бы умерли от старости (читай модели стали бы неактуальными) пока дождались бы рабочих витрин. Так что порадуйтесь что данные в вашем ХД востребованны - то есть вы уже в топе успешных хранилищ :) ну и: 1. Не ломайте то что уже работает 2. Развивайте вглубь и вширь для удовлетворения будущих потребностей бизнеса ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.12.2016, 17:42 |
|
||
|
Разработка хранилища
|
|||
|---|---|---|---|
|
#18+
Спасибо всем, кто ответил. Где-то подтвердил свои догадки, где-то посмотрел на другие точки зрения. Смог найти, кажется, хороший компромисс, закинув те данные в "мусорную" схему, параллельно разрабатывая небольшими кусочками более масштабируемо новую схему и заменяя конечные витринки более качественными, историчными и достаточно полными данными(договорились, что будет уходить больше времени на задачи, но приемлемо для бизнеса). P.S. Ivan Durak - премию точно нет, "рабочие" процессы работали только на машинное обучение, результатами которого бизнес не пользовался ввиду плохого качества входной инфы ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.01.2017, 19:12 |
|
||
|
|

start [/forum/topic.php?fid=49&msg=39364887&tid=1858416]: |
0ms |
get settings: |
11ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
76ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
51ms |
get tp. blocked users: |
1ms |
| others: | 13ms |
| total: | 189ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...