powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
21 сообщений из 21, страница 1 из 1
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39392430
dies irae
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Подскажите, плиз:

Дано:
Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры.
Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум

Требуется:
построить reporting систему, в дальнейшем к ней прикрутить olap.
Заказчик склоняется к open source решениям, в частности Hadoop + Hive
Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов:
Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку...
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39392437
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Делайте на тех технологиях, по которым есть специалисты.

При этом примите во внимание:
Если уйдет специалист по "Икс", сколько потребуется времени на поиск замены?
Сколько стоит такой специалист на рынке?

Ну, еще гляньте активность в форумах по обычным СУБД и по бигдате.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39392713
Фотография essbase.ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dies irae,

посмотрите в сторону google big tables - дешево и очень сердито
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39392728
Leoris
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
dies iraeПодскажите, плиз:

Дано:
Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры.
Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум

Требуется:
построить reporting систему, в дальнейшем к ней прикрутить olap.
Заказчик склоняется к open source решениям, в частности Hadoop + Hive
Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов:
Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку...

Слишком много вопросов:
* нужен ли доступ в реальном времегт? если да - Хадуп сразу мимо
* какова глубина анализа - до категории? до SKU?
* какие требования у пользователей к доступам - через excel (SAS), веб портал - Tableau/Qlik/много их...

И ETL + DWH вам в любом случае придётся делать, просто могут быть вариант: сырые данные в HDFS + агрегаты в БД, либо всё в БД.
как вариант - действительно посмотрите в сторону aws redshift или google big table
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39392884
WarAnt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dies irae,

помните главное правило, чем дешевле система, тем дороже ее обслуживание.
всякие big table и прочие бесплатные поделки не рассчитаны на работу 24/7 и когда в очередной раз все сдохнет, а бухам нужен будет годовой отчет, вы поймете правильность выбора.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39393394
dies irae
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leoris* нужен ли доступ в реальном времегт? если да - Хадуп сразу мимо


риалтайм нужен. вроде как для этого планируется ещё агрегаты в БД хранить (ну либо из olap получать)

Leoris* какова глубина анализа - до категории? до SKU?


до SKU

Leoris* какие требования у пользователей к доступам - через excel (SAS), веб портал - Tableau/Qlik/много их...


веб-портал будет, но он может из любой системы данные тянуть

LeorisИ ETL + DWH вам в любом случае придётся делать, просто могут быть вариант: сырые данные в HDFS + агрегаты в БД, либо всё в БД.


да, согласен. вот только потянет ли ms sql + ssas 3Тб? ну так, чтобы процессинг куба был приемлем...

Leorisкак вариант - действительно посмотрите в сторону aws redshift или google big table

да, посмотрю, спасибо. А чем оно лучше hadoop-а?
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39393415
s_ustinov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dies iraeДано:
Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры.
Суммарный объём данных сейчас: 300Гб , закладываем десятикратный рост, пусть будет 3Тб максимум

То есть каждая база в среднем 1 гиг? Откуда у вас будет рост в 10 раз?
Основных данных (продажи) сейчас у вас явно не 300 гиг. Думаю, основные данные у вас в пределах 100 гиг... Даже если вырастет всё в 10 раз (а это очень не скоро) - будет террабайт.
Это всё никак не тянет на биг дата.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39393914
bideveloper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
300 Гб это размер оперативной базы или хранилища? Хранилище обычно в несколько десятков раз меньше, так как там только нужные для анализа таблицы.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39393925
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
bideveloperэто размер оперативной базы или хранилища?
bideveloperХранилище обычно в несколько десятков раз меньше
Не взошел первый пост у бидевелопера.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39394372
Leoris
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
dies irae,

автордо SKU
Если до SKU, то OLAP едва ли поможет. Вам или предрасчитывать агрегаты что будет занимать 1) много времени на расчёт куба 2)много памяти

авторда, посмотрю, спасибо. А чем оно лучше hadoop-а?

ИМХО на любую систему надо смотреть с точки зрения простоты поддержки и использования.

Что такое hadoop (если примитивно)? Это связка распределённой файловой системы + кластер машин на которых параллельно выполняются написанные вами обработчики. На нижнем уровне это Map и Reduce на java, в лучшем случае - Hive (надстройка над hadoop, позволяет делать sql запросы). Поэтому с т.з. простоты администрирования: у вас есть люди, знающие как создавать и настраивать кластер hadoop? С точки зрения пользователя: есть люди, знающие java как минимум? То есть с хадупом достаточно большие накладные расходы и как писали коллеги для 3 ТБ его использовать неразумно - их и в оперативку поместить можно )

В чем плюсы aws redshift и google big table. Это сервис, его можно включить хоть сейчас и протестировать (благо есть триал). Они созданы на парадигме MPP и для обработки используют знакомый любому аналитику SQL. Если быть совсем точным big table - на основе MySQL, redshift - на основе postgresql. Железо и основные настройки администрируются за вас - меньше потребность в специалистах. Ну и плюс расширять проще - достаточно увеличить кол-во машин в кластере. В качестве бонуса, у обеих систем есть свои sql сервера, где можно хранить агрегаты, выгрузки для анализа и т.д.

Минусы. Всё удовольствие находится на европейских/американских серверах. 1)Соответственно продукты анализировать можно, а вот клиентов - тоже можно, но нужно чистить данные (анонимизация и т.д.) 2)Ценник в долларах, соответственно курсовые риски 3)Нужен стабильный интернет канал 4)Нужно считать расходы (например за вас будут брать деньги за исходящий с сервера трафик).
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39394493
WarAnt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dies irae,

авторда, согласен. вот только потянет ли ms sql + ssas 3Тб? ну так, чтобы процессинг куба был приемлем...

нормальный olap и начинатся то толко с 3Tб до этого всё остальное, это просто детская песочница.
Приемлемое время процессинга обеспечивается правильным планированием секций.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39394502
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dies irae,
имхо, из того, что вы написали,
у вас вряд ли получится сделать систему как на хадупе (и иже с ним), так и на ms sql.
наиболее полезный для вас совет вам дали прям вот во втором посте:КритикДелайте на тех технологиях, по которым есть специалисты.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39394829
dies irae
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
LeorisВ чем плюсы aws redshift и google big table. Это сервис, его можно включить хоть сейчас и протестировать (благо есть триал). Они созданы на парадигме MPP и для обработки используют знакомый любому аналитику SQL. Если быть совсем точным big table - на основе MySQL, redshift - на основе postgresql. Железо и основные настройки администрируются за вас - меньше потребность в специалистах. Ну и плюс расширять проще - достаточно увеличить кол-во машин в кластере. В качестве бонуса, у обеих систем есть свои sql сервера, где можно хранить агрегаты, выгрузки для анализа и т.д.

Минусы. Всё удовольствие находится на европейских/американских серверах. 1)Соответственно продукты анализировать можно, а вот клиентов - тоже можно, но нужно чистить данные (анонимизация и т.д.) 2)Ценник в долларах, соответственно курсовые риски 3)Нужен стабильный интернет канал 4)Нужно считать расходы (например за вас будут брать деньги за исходящий с сервера трафик).

спасибо большое за обзор, буду изучать варианты
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39394925
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dies iraeПодскажите, плиз:

Дано:
Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры.
Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум

Требуется:
построить reporting систему, в дальнейшем к ней прикрутить olap.
Заказчик склоняется к open source решениям, в частности Hadoop + Hive
Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов:
Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку...

Для начала определитесь, что такое биг-дата. 3ТБ структурированных данных это никакая не биг-дата. Это просто много данных. Для анализа всегда конечному пользователю нужны структурированных данные (Инмон).
Поэтому городить огород ради модных слов я вам, как архитектор ХД с 20 летним опытом просто несоветую хотя бы еще по той причине, что потратите время, а от вас ждут конкретный результат за ограниченное время
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39394934
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dies iraeПодскажите, плиз:

Дано:
Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры.
Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум

Требуется:
построить reporting систему, в дальнейшем к ней прикрутить olap.
Заказчик склоняется к open source решениям, в частности Hadoop + Hive
Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов:
Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку...

Я под 3Гб в олап куб гружу. При правильном партиционировании и инкрементальном обновлении вполне работает.

Когда данных много -- их желательно предаггрегировать.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39394970
Фотография Alex_496
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
хороший совет дал Критик.

от себя добавлю:
поскольку заказ идет от продажников, то ждите от них нежданчиков по бюджетам, срокам, хотелкам,
а по сему делайте на том, на что есть опыт и СЛАЖЕННАЯ команда и думайте как их будете удерживать.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39395254
Фотография Shtock
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
>>Заказчик склоняется к open source решениям

Я думаю, он не знает других слов кроме хадуп. Для таких смешных объемов нужно нормальное mpp а-ля гринплам и пентахо для етл. Если хочет под инфраструктуру hadoop, то взять hdb. но в чистом виде хадуп брать это как ассемблер.

У нас ретейл 18 тб на оракле бегает влёт без малейшей проблемы.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39408196
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leorisdies irae,

ИМХО на любую систему надо смотреть с точки зрения простоты поддержки и использования.

Что такое hadoop (если примитивно)? Это связка распределённой файловой системы + кластер машин на которых параллельно выполняются написанные вами обработчики. На нижнем уровне это Map и Reduce на java, в лучшем случае - Hive (надстройка над hadoop, позволяет делать sql запросы).

hive уже не модно, модно impala. на низком уровне тоже сейчас больше шума вокруг spark+hadoop, вместо MapReduce.

LeorisПоэтому с т.з. простоты администрирования: у вас есть люди, знающие как создавать и настраивать кластер hadoop? С точки зрения пользователя: есть люди, знающие java как минимум? То есть с хадупом достаточно большие накладные расходы и как писали коллеги для 3 ТБ его использовать неразумно - их и в оперативку поместить можно )

зависит от задач. я сейчас в проекте где порядка 30 баз по 30-100 гб в хадупе и оверкилом совсем не выглядят на 8 серверах

затраты на хадуп будут меньше, чем лицензии на какой-нибудь mssql/oracle + их стебай. затраты там время разобраться. я бы посоветовал скачать cloudera quickstart vm и попробовать закинуть данные (важно в parquet формате) и потыркать в импале. даже в виртуалке на одном HDD меня лично впечатлила скорость. может быть с толковым джавистом там все будет на раз два три получаться.

я очень люблю оракл и рсубд, но очень похоже, что эта хрень все таки очень быстро вытеснит DWH. лет через пять такие вопросы уже и не будет возникать.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39408368
Leoris
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Yo.!,

очень бегло посмотрел Impala, насколько успел понять достойная замена hive. Суть не в этом, а в том найти специалистов под хадуп можно, но дорого.

Замечание насчёт стоимости лицензий правильное, но есть ведь и бесплатный аналоги, например Postgres. Её вполне можно использовать как аналитическую ДБ (если использовать партиционирование, а в 9.6 ещё и параллельные запросы появились). На объёмах 1-2 ТБ будет работать.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39408404
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
LeorisYo.!,

очень бегло посмотрел Impala, насколько успел понять достойная замена hive. Суть не в этом, а в том найти специалистов под хадуп можно, но дорого.

Замечание насчёт стоимости лицензий правильное, но есть ведь и бесплатный аналоги, например Postgres. Её вполне можно использовать как аналитическую ДБ (если использовать партиционирование, а в 9.6 ещё и параллельные запросы появились). На объёмах 1-2 ТБ будет работать.
А еще есть опенсорсный Greenplum. Правда нужны админы хорошие, которых еще меньше чем админов hive и Hadoop.
...
Рейтинг: 0 / 0
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
    #39408418
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leorisочень бегло посмотрел Impala, насколько успел понять достойная замена hive. Суть не в этом, а в том найти специалистов под хадуп можно, но дорого.

там все выглядит просто как огромная туча жава приложений, которая если уж поднялась то в принципе уже работает. на сколько я вижу у всех примерно одинаково все начинается, запускают это дело жава спецы. на удивление работает достаточно стабильно, я тоже ожидал каких-то мутных проблем, каких-нибудь стандартных java exception с классическим null point exception и даже их получал, насилуя кривыми запросами. но у меня ощущение, что для озвученного объема, без тучи юзеров, импала+хадуп почти никаких сложностей поднять не должно быть.
другое дело, что там какая-то отчетная загагулина нужна еще.


LeorisЗамечание насчёт стоимости лицензий правильное, но есть ведь и бесплатный аналоги, например Postgres. Её вполне можно использовать как аналитическую ДБ (если использовать партиционирование, а в 9.6 ещё и параллельные запросы появились). На объёмах 1-2 ТБ будет работать.
зависит от задач, структур. зачастую дело то не в объемах.
...
Рейтинг: 0 / 0
21 сообщений из 21, страница 1 из 1
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]