|
BigData в России
|
|||
---|---|---|---|
#18+
Я так понимаю , что Big Data решения используются для: 1. Machine Learning - статистическая обработка большого объема информации. 2. для ETL выполняющихся параллельно на нескольких серверах. 3. Комбинация этих решений. После разговоров с несколькими специалистами по Big Data - я пришел к выводу, что в России Machine Learning используется редко. В основном Big Data(Apache Spark и т.д.) используется для ETL. Для параллельной обработки, аггрегации большого объема данных и загрузки обратно в РСУБД для построения отчетов и принятия решения. Согласны ли вы, что в основном в России BigData используется для ETL ? Или у вас на работе сделано как в красивых презентациях? Поделитесь опытом Спасибо ... |
|||
:
Нравится:
Не нравится:
|
|||
14.05.2017, 18:21 |
|
BigData в России
|
|||
---|---|---|---|
#18+
я видел системы, где сделано достаточно близко к тем красивым презентациям. oltp базы выгружают дельты за некий период (кто час кто день) в центральное хранилище, центральное хранилище (большой paquet файл, со всей историей изменений каждого поля) сразу генерит копию данных в реляционные таблички импалы, которые доступны отчетным системам и аналитике. на их базе, в том числе инструментами аля sas dataminer, строятся модели, используемые в том числе и для прогнозирования. ваши три пункта это уже скорее бонус к хранилищу. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.05.2017, 19:22 |
|
BigData в России
|
|||
---|---|---|---|
#18+
Yo.!, то, что описали, может делать и простая Информатика ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2017, 20:37 |
|
BigData в России
|
|||
---|---|---|---|
#18+
Yo.!я видел системы, где сделано достаточно близко к тем красивым презентациям. oltp базы выгружают дельты за некий период (кто час кто день) в центральное хранилище, центральное хранилище (большой paquet файл, со всей историей изменений каждого поля) сразу генерит копию данных в реляционные таблички импалы, которые доступны отчетным системам и аналитике. на их базе, в том числе инструментами аля sas dataminer, строятся модели, используемые в том числе и для прогнозирования. ваши три пункта это уже скорее бонус к хранилищу. Dannaya architectura pohoja na klassicheskoe hranilishe. Razlichie tolko v tom chto, za licenzii mojnoi ne platit i namnogo legche gorizontalnoe masshtabirovanie v Impale ili drugih Big Data resheniyah ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2017, 13:43 |
|
BigData в России
|
|||
---|---|---|---|
#18+
Критикто, что описали, может делать и простая Информатика информатика просто etl tool на сколько я знаю, ничего не хранит. а то что dwh строят не только на бигдате я в курсе. :D Joz07Dannaya architectura pohoja na klassicheskoe hranilishe. Razlichie tolko v tom chto, za licenzii mojnoi ne platit i namnogo legche gorizontalnoe masshtabirovanie v Impale ili drugih Big Data resheniyah и да и нет. классическое это все же нормальные реляционные таблички в нормальной рсубд, в единственном экземпляре с констреинтами, форен кеями и прочим. а тут как бы внутренний большой файлик и его копии разложенные по табличкам, где самому нужно следить за консистентностью, целостностью и прочим. даже с обновлением parquet файлов под импалой приходилось что-то самопальное изобретать, иначе просто работающие запросы эти обновления вырубали. зато много дешевле и есть плюшки. типа аналитку под анализ сгенерить импаловские таблицы на определенный момент в прошлом или под какой-нибудь анализ заморозить пару систем в соседней "папке". в классике аналитики мучились со всякими start_date/end_date ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2017, 19:12 |
|
|
start [/forum/topic.php?fid=48&fpage=5&tid=1856691]: |
0ms |
get settings: |
9ms |
get forum list: |
11ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
27ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
41ms |
get tp. blocked users: |
2ms |
others: | 328ms |
total: | 435ms |
0 / 0 |