Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ? / OLAP и DWH

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

21 сообщений из 21, страница 1 из 1

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39392430

dies irae

Участник

Сообщения: 78

Рейтинг: 0 / 0

Подскажите, плиз:

Дано:
Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры.
Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум

Требуется:
построить reporting систему, в дальнейшем к ней прикрутить olap.
Заказчик склоняется к open source решениям, в частности Hadoop + Hive
Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов:
Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку...

...

Рейтинг:

0 / 0

26.01.2017, 19:16

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39392437

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

Делайте на тех технологиях, по которым есть специалисты.

При этом примите во внимание:
Если уйдет специалист по "Икс", сколько потребуется времени на поиск замены?
Сколько стоит такой специалист на рынке?

Ну, еще гляньте активность в форумах по обычным СУБД и по бигдате.

...

Рейтинг:

0 / 0

26.01.2017, 19:33

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39392713

essbase.ru

Участник

Откуда: http://essbase.ru/about

Сообщения: 1 402

Рейтинг: 0 / 0

dies irae,

посмотрите в сторону google big tables - дешево и очень сердито

...

Рейтинг:

0 / 0

27.01.2017, 09:51

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39392728

Leoris

Гость

dies iraeПодскажите, плиз:

Дано:
Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры.
Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум

Требуется:
построить reporting систему, в дальнейшем к ней прикрутить olap.
Заказчик склоняется к open source решениям, в частности Hadoop + Hive
Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов:
Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку...

Слишком много вопросов:
* нужен ли доступ в реальном времегт? если да - Хадуп сразу мимо
* какова глубина анализа - до категории? до SKU?
* какие требования у пользователей к доступам - через excel (SAS), веб портал - Tableau/Qlik/много их...

И ETL + DWH вам в любом случае придётся делать, просто могут быть вариант: сырые данные в HDFS + агрегаты в БД, либо всё в БД.
как вариант - действительно посмотрите в сторону aws redshift или google big table

...

Рейтинг:

0 / 0

27.01.2017, 10:02

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39392884

WarAnt

Участник

Откуда: Питер

Сообщения: 2 314

Рейтинг: 0 / 0

dies irae,

помните главное правило, чем дешевле система, тем дороже ее обслуживание.
всякие big table и прочие бесплатные поделки не рассчитаны на работу 24/7 и когда в очередной раз все сдохнет, а бухам нужен будет годовой отчет, вы поймете правильность выбора.

...

Рейтинг:

0 / 0

27.01.2017, 11:59

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39393394

dies irae

Участник

Сообщения: 78

Рейтинг: 0 / 0

Leoris* нужен ли доступ в реальном времегт? если да - Хадуп сразу мимо

риалтайм нужен. вроде как для этого планируется ещё агрегаты в БД хранить (ну либо из olap получать)

Leoris* какова глубина анализа - до категории? до SKU?

до SKU

Leoris* какие требования у пользователей к доступам - через excel (SAS), веб портал - Tableau/Qlik/много их...

веб-портал будет, но он может из любой системы данные тянуть

LeorisИ ETL + DWH вам в любом случае придётся делать, просто могут быть вариант: сырые данные в HDFS + агрегаты в БД, либо всё в БД.

да, согласен. вот только потянет ли ms sql + ssas 3Тб? ну так, чтобы процессинг куба был приемлем...

Leorisкак вариант - действительно посмотрите в сторону aws redshift или google big table

да, посмотрю, спасибо. А чем оно лучше hadoop-а?

...

Рейтинг:

0 / 0

27.01.2017, 18:21

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39393415

s_ustinov

Участник

Откуда: Munchen, DE

Сообщения: 1 922

Рейтинг: 0 / 0

dies iraeДано:
Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры.
Суммарный объём данных сейчас: 300Гб , закладываем десятикратный рост, пусть будет 3Тб максимум

То есть каждая база в среднем 1 гиг? Откуда у вас будет рост в 10 раз?
Основных данных (продажи) сейчас у вас явно не 300 гиг. Думаю, основные данные у вас в пределах 100 гиг... Даже если вырастет всё в 10 раз (а это очень не скоро) - будет террабайт.
Это всё никак не тянет на биг дата.

...

Рейтинг:

0 / 0

27.01.2017, 18:57

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39393914

bideveloper

Участник

Сообщения: 344

Рейтинг: 0 / 0

300 Гб это размер оперативной базы или хранилища? Хранилище обычно в несколько десятков раз меньше, так как там только нужные для анализа таблицы.

...

Рейтинг:

0 / 0

29.01.2017, 00:35

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39393925

Бумбараш

Участник

Откуда: никем не победимая, самая любимая

Сообщения: 1 090

Рейтинг: 0 / 0

bideveloperэто размер оперативной базы или хранилища?
bideveloperХранилище обычно в несколько десятков раз меньше
Не взошел первый пост у бидевелопера.

...

Рейтинг:

0 / 0

29.01.2017, 01:49

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39394372

Leoris

Гость

dies irae,

автордо SKU
Если до SKU, то OLAP едва ли поможет. Вам или предрасчитывать агрегаты что будет занимать 1) много времени на расчёт куба 2)много памяти

авторда, посмотрю, спасибо. А чем оно лучше hadoop-а?

ИМХО на любую систему надо смотреть с точки зрения простоты поддержки и использования.

Что такое hadoop (если примитивно)? Это связка распределённой файловой системы + кластер машин на которых параллельно выполняются написанные вами обработчики. На нижнем уровне это Map и Reduce на java, в лучшем случае - Hive (надстройка над hadoop, позволяет делать sql запросы). Поэтому с т.з. простоты администрирования: у вас есть люди, знающие как создавать и настраивать кластер hadoop? С точки зрения пользователя: есть люди, знающие java как минимум? То есть с хадупом достаточно большие накладные расходы и как писали коллеги для 3 ТБ его использовать неразумно - их и в оперативку поместить можно )

В чем плюсы aws redshift и google big table. Это сервис, его можно включить хоть сейчас и протестировать (благо есть триал). Они созданы на парадигме MPP и для обработки используют знакомый любому аналитику SQL. Если быть совсем точным big table - на основе MySQL, redshift - на основе postgresql. Железо и основные настройки администрируются за вас - меньше потребность в специалистах. Ну и плюс расширять проще - достаточно увеличить кол-во машин в кластере. В качестве бонуса, у обеих систем есть свои sql сервера, где можно хранить агрегаты, выгрузки для анализа и т.д.

Минусы. Всё удовольствие находится на европейских/американских серверах. 1)Соответственно продукты анализировать можно, а вот клиентов - тоже можно, но нужно чистить данные (анонимизация и т.д.) 2)Ценник в долларах, соответственно курсовые риски 3)Нужен стабильный интернет канал 4)Нужно считать расходы (например за вас будут брать деньги за исходящий с сервера трафик).

...

Рейтинг:

0 / 0

30.01.2017, 09:25

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39394493

WarAnt

Участник

Откуда: Питер

Сообщения: 2 314

Рейтинг: 0 / 0

dies irae,

авторда, согласен. вот только потянет ли ms sql + ssas 3Тб? ну так, чтобы процессинг куба был приемлем...

нормальный olap и начинатся то толко с 3Tб до этого всё остальное, это просто детская песочница.
Приемлемое время процессинга обеспечивается правильным планированием секций.

...

Рейтинг:

0 / 0

30.01.2017, 11:57

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39394502

Дедушка

Участник

Откуда: Город трёх революций

Сообщения: 4 572

Рейтинг: 0 / 0

dies irae,
имхо, из того, что вы написали,
у вас вряд ли получится сделать систему как на хадупе (и иже с ним), так и на ms sql.
наиболее полезный для вас совет вам дали прям вот во втором посте:КритикДелайте на тех технологиях, по которым есть специалисты.

...

Рейтинг:

0 / 0

30.01.2017, 12:11

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39394829

dies irae

Участник

Сообщения: 78

Рейтинг: 0 / 0

LeorisВ чем плюсы aws redshift и google big table. Это сервис, его можно включить хоть сейчас и протестировать (благо есть триал). Они созданы на парадигме MPP и для обработки используют знакомый любому аналитику SQL. Если быть совсем точным big table - на основе MySQL, redshift - на основе postgresql. Железо и основные настройки администрируются за вас - меньше потребность в специалистах. Ну и плюс расширять проще - достаточно увеличить кол-во машин в кластере. В качестве бонуса, у обеих систем есть свои sql сервера, где можно хранить агрегаты, выгрузки для анализа и т.д.

Минусы. Всё удовольствие находится на европейских/американских серверах. 1)Соответственно продукты анализировать можно, а вот клиентов - тоже можно, но нужно чистить данные (анонимизация и т.д.) 2)Ценник в долларах, соответственно курсовые риски 3)Нужен стабильный интернет канал 4)Нужно считать расходы (например за вас будут брать деньги за исходящий с сервера трафик).

спасибо большое за обзор, буду изучать варианты

...

Рейтинг:

0 / 0

30.01.2017, 16:21

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39394925

Полковник.

Участник

Сообщения: 1 648

Рейтинг: 0 / 0

dies iraeПодскажите, плиз:

Дано:
Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры.
Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум

Требуется:
построить reporting систему, в дальнейшем к ней прикрутить olap.
Заказчик склоняется к open source решениям, в частности Hadoop + Hive
Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов:
Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку...

Для начала определитесь, что такое биг-дата. 3ТБ структурированных данных это никакая не биг-дата. Это просто много данных. Для анализа всегда конечному пользователю нужны структурированных данные (Инмон).
Поэтому городить огород ради модных слов я вам, как архитектор ХД с 20 летним опытом просто несоветую хотя бы еще по той причине, что потратите время, а от вас ждут конкретный результат за ограниченное время

...

Рейтинг:

0 / 0

30.01.2017, 17:48

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39394934

a_voronin

Участник

Откуда: Москва

Сообщения: 4 636

Рейтинг: 0 / 0

dies iraeПодскажите, плиз:

Дано:
Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры.
Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум

Требуется:
построить reporting систему, в дальнейшем к ней прикрутить olap.
Заказчик склоняется к open source решениям, в частности Hadoop + Hive
Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов:
Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку...

Я под 3Гб в олап куб гружу. При правильном партиционировании и инкрементальном обновлении вполне работает.

Когда данных много -- их желательно предаггрегировать.

...

Рейтинг:

0 / 0

30.01.2017, 18:02

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39394970

Alex_496

Участник

Откуда: https://www.dvbi.ru

Сообщения: 2 727

Рейтинг: 0 / 0

хороший совет дал Критик.

от себя добавлю:
поскольку заказ идет от продажников, то ждите от них нежданчиков по бюджетам, срокам, хотелкам,
а по сему делайте на том, на что есть опыт и СЛАЖЕННАЯ команда и думайте как их будете удерживать.

...

Рейтинг:

0 / 0

30.01.2017, 18:56

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39395254

Shtock

Участник

Откуда: СПб

Сообщения: 2 845

Рейтинг: 0 / 0

>>Заказчик склоняется к open source решениям

Я думаю, он не знает других слов кроме хадуп. Для таких смешных объемов нужно нормальное mpp а-ля гринплам и пентахо для етл. Если хочет под инфраструктуру hadoop, то взять hdb. но в чистом виде хадуп брать это как ассемблер.

У нас ретейл 18 тб на оракле бегает влёт без малейшей проблемы.

...

Рейтинг:

0 / 0

31.01.2017, 11:24

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39408196

Yo.!

Гость

Leorisdies irae,

ИМХО на любую систему надо смотреть с точки зрения простоты поддержки и использования.

Что такое hadoop (если примитивно)? Это связка распределённой файловой системы + кластер машин на которых параллельно выполняются написанные вами обработчики. На нижнем уровне это Map и Reduce на java, в лучшем случае - Hive (надстройка над hadoop, позволяет делать sql запросы).

hive уже не модно, модно impala. на низком уровне тоже сейчас больше шума вокруг spark+hadoop, вместо MapReduce.

LeorisПоэтому с т.з. простоты администрирования: у вас есть люди, знающие как создавать и настраивать кластер hadoop? С точки зрения пользователя: есть люди, знающие java как минимум? То есть с хадупом достаточно большие накладные расходы и как писали коллеги для 3 ТБ его использовать неразумно - их и в оперативку поместить можно )

зависит от задач. я сейчас в проекте где порядка 30 баз по 30-100 гб в хадупе и оверкилом совсем не выглядят на 8 серверах

затраты на хадуп будут меньше, чем лицензии на какой-нибудь mssql/oracle + их стебай. затраты там время разобраться. я бы посоветовал скачать cloudera quickstart vm и попробовать закинуть данные (важно в parquet формате) и потыркать в импале. даже в виртуалке на одном HDD меня лично впечатлила скорость. может быть с толковым джавистом там все будет на раз два три получаться.

я очень люблю оракл и рсубд, но очень похоже, что эта хрень все таки очень быстро вытеснит DWH. лет через пять такие вопросы уже и не будет возникать.

...

Рейтинг:

0 / 0

21.02.2017, 01:50

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39408368

Leoris

Гость

Yo.!,

очень бегло посмотрел Impala, насколько успел понять достойная замена hive. Суть не в этом, а в том найти специалистов под хадуп можно, но дорого.

Замечание насчёт стоимости лицензий правильное, но есть ведь и бесплатный аналоги, например Postgres. Её вполне можно использовать как аналитическую ДБ (если использовать партиционирование, а в 9.6 ещё и параллельные запросы появились). На объёмах 1-2 ТБ будет работать.

...

Рейтинг:

0 / 0

21.02.2017, 11:11

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39408404

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

LeorisYo.!,

очень бегло посмотрел Impala, насколько успел понять достойная замена hive. Суть не в этом, а в том найти специалистов под хадуп можно, но дорого.

Замечание насчёт стоимости лицензий правильное, но есть ведь и бесплатный аналоги, например Postgres. Её вполне можно использовать как аналитическую ДБ (если использовать партиционирование, а в 9.6 ещё и параллельные запросы появились). На объёмах 1-2 ТБ будет работать.
А еще есть опенсорсный Greenplum. Правда нужны админы хорошие, которых еще меньше чем админов hive и Hadoop.

...

Рейтинг:

0 / 0

21.02.2017, 12:04

| Ответить | Цитировать | Написать

Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

#39408418

Yo.!

Гость

Leorisочень бегло посмотрел Impala, насколько успел понять достойная замена hive. Суть не в этом, а в том найти специалистов под хадуп можно, но дорого.

там все выглядит просто как огромная туча жава приложений, которая если уж поднялась то в принципе уже работает. на сколько я вижу у всех примерно одинаково все начинается, запускают это дело жава спецы. на удивление работает достаточно стабильно, я тоже ожидал каких-то мутных проблем, каких-нибудь стандартных java exception с классическим null point exception и даже их получал, насилуя кривыми запросами. но у меня ощущение, что для озвученного объема, без тучи юзеров, импала+хадуп почти никаких сложностей поднять не должно быть.
другое дело, что там какая-то отчетная загагулина нужна еще.

LeorisЗамечание насчёт стоимости лицензий правильное, но есть ведь и бесплатный аналоги, например Postgres. Её вполне можно использовать как аналитическую ДБ (если использовать партиционирование, а в 9.6 ещё и параллельные запросы появились). На объёмах 1-2 ТБ будет работать.
зависит от задач, структур. зачастую дело то не в объемах.

...

Рейтинг:

0 / 0

21.02.2017, 12:12

| Ответить | Цитировать | Написать

21 сообщений из 21, страница 1 из 1

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=49&fpage=34&tid=1858352]:	0ms
get settings:	11ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	47ms
get topic data:	12ms
get forum data:	2ms
get page messages:	76ms
get tp. blocked users:	2ms
others:	245ms

total:	415ms