|
|
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
Подскажите, плиз: Дано: Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры. Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум Требуется: построить reporting систему, в дальнейшем к ней прикрутить olap. Заказчик склоняется к open source решениям, в частности Hadoop + Hive Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов: Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.01.2017, 19:16 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
Делайте на тех технологиях, по которым есть специалисты. При этом примите во внимание: Если уйдет специалист по "Икс", сколько потребуется времени на поиск замены? Сколько стоит такой специалист на рынке? Ну, еще гляньте активность в форумах по обычным СУБД и по бигдате. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.01.2017, 19:33 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
dies irae, посмотрите в сторону google big tables - дешево и очень сердито ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.01.2017, 09:51 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
dies iraeПодскажите, плиз: Дано: Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры. Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум Требуется: построить reporting систему, в дальнейшем к ней прикрутить olap. Заказчик склоняется к open source решениям, в частности Hadoop + Hive Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов: Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку... Слишком много вопросов: * нужен ли доступ в реальном времегт? если да - Хадуп сразу мимо * какова глубина анализа - до категории? до SKU? * какие требования у пользователей к доступам - через excel (SAS), веб портал - Tableau/Qlik/много их... И ETL + DWH вам в любом случае придётся делать, просто могут быть вариант: сырые данные в HDFS + агрегаты в БД, либо всё в БД. как вариант - действительно посмотрите в сторону aws redshift или google big table ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.01.2017, 10:02 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
dies irae, помните главное правило, чем дешевле система, тем дороже ее обслуживание. всякие big table и прочие бесплатные поделки не рассчитаны на работу 24/7 и когда в очередной раз все сдохнет, а бухам нужен будет годовой отчет, вы поймете правильность выбора. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.01.2017, 11:59 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
Leoris* нужен ли доступ в реальном времегт? если да - Хадуп сразу мимо риалтайм нужен. вроде как для этого планируется ещё агрегаты в БД хранить (ну либо из olap получать) Leoris* какова глубина анализа - до категории? до SKU? до SKU Leoris* какие требования у пользователей к доступам - через excel (SAS), веб портал - Tableau/Qlik/много их... веб-портал будет, но он может из любой системы данные тянуть LeorisИ ETL + DWH вам в любом случае придётся делать, просто могут быть вариант: сырые данные в HDFS + агрегаты в БД, либо всё в БД. да, согласен. вот только потянет ли ms sql + ssas 3Тб? ну так, чтобы процессинг куба был приемлем... Leorisкак вариант - действительно посмотрите в сторону aws redshift или google big table да, посмотрю, спасибо. А чем оно лучше hadoop-а? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.01.2017, 18:21 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
dies iraeДано: Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры. Суммарный объём данных сейчас: 300Гб , закладываем десятикратный рост, пусть будет 3Тб максимум То есть каждая база в среднем 1 гиг? Откуда у вас будет рост в 10 раз? Основных данных (продажи) сейчас у вас явно не 300 гиг. Думаю, основные данные у вас в пределах 100 гиг... Даже если вырастет всё в 10 раз (а это очень не скоро) - будет террабайт. Это всё никак не тянет на биг дата. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.01.2017, 18:57 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
300 Гб это размер оперативной базы или хранилища? Хранилище обычно в несколько десятков раз меньше, так как там только нужные для анализа таблицы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.01.2017, 00:35 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
bideveloperэто размер оперативной базы или хранилища? bideveloperХранилище обычно в несколько десятков раз меньше Не взошел первый пост у бидевелопера. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.01.2017, 01:49 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
dies irae, автордо SKU Если до SKU, то OLAP едва ли поможет. Вам или предрасчитывать агрегаты что будет занимать 1) много времени на расчёт куба 2)много памяти авторда, посмотрю, спасибо. А чем оно лучше hadoop-а? ИМХО на любую систему надо смотреть с точки зрения простоты поддержки и использования. Что такое hadoop (если примитивно)? Это связка распределённой файловой системы + кластер машин на которых параллельно выполняются написанные вами обработчики. На нижнем уровне это Map и Reduce на java, в лучшем случае - Hive (надстройка над hadoop, позволяет делать sql запросы). Поэтому с т.з. простоты администрирования: у вас есть люди, знающие как создавать и настраивать кластер hadoop? С точки зрения пользователя: есть люди, знающие java как минимум? То есть с хадупом достаточно большие накладные расходы и как писали коллеги для 3 ТБ его использовать неразумно - их и в оперативку поместить можно ) В чем плюсы aws redshift и google big table. Это сервис, его можно включить хоть сейчас и протестировать (благо есть триал). Они созданы на парадигме MPP и для обработки используют знакомый любому аналитику SQL. Если быть совсем точным big table - на основе MySQL, redshift - на основе postgresql. Железо и основные настройки администрируются за вас - меньше потребность в специалистах. Ну и плюс расширять проще - достаточно увеличить кол-во машин в кластере. В качестве бонуса, у обеих систем есть свои sql сервера, где можно хранить агрегаты, выгрузки для анализа и т.д. Минусы. Всё удовольствие находится на европейских/американских серверах. 1)Соответственно продукты анализировать можно, а вот клиентов - тоже можно, но нужно чистить данные (анонимизация и т.д.) 2)Ценник в долларах, соответственно курсовые риски 3)Нужен стабильный интернет канал 4)Нужно считать расходы (например за вас будут брать деньги за исходящий с сервера трафик). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.01.2017, 09:25 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
dies irae, авторда, согласен. вот только потянет ли ms sql + ssas 3Тб? ну так, чтобы процессинг куба был приемлем... нормальный olap и начинатся то толко с 3Tб до этого всё остальное, это просто детская песочница. Приемлемое время процессинга обеспечивается правильным планированием секций. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.01.2017, 11:57 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
dies irae, имхо, из того, что вы написали, у вас вряд ли получится сделать систему как на хадупе (и иже с ним), так и на ms sql. наиболее полезный для вас совет вам дали прям вот во втором посте:КритикДелайте на тех технологиях, по которым есть специалисты. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.01.2017, 12:11 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
LeorisВ чем плюсы aws redshift и google big table. Это сервис, его можно включить хоть сейчас и протестировать (благо есть триал). Они созданы на парадигме MPP и для обработки используют знакомый любому аналитику SQL. Если быть совсем точным big table - на основе MySQL, redshift - на основе postgresql. Железо и основные настройки администрируются за вас - меньше потребность в специалистах. Ну и плюс расширять проще - достаточно увеличить кол-во машин в кластере. В качестве бонуса, у обеих систем есть свои sql сервера, где можно хранить агрегаты, выгрузки для анализа и т.д. Минусы. Всё удовольствие находится на европейских/американских серверах. 1)Соответственно продукты анализировать можно, а вот клиентов - тоже можно, но нужно чистить данные (анонимизация и т.д.) 2)Ценник в долларах, соответственно курсовые риски 3)Нужен стабильный интернет канал 4)Нужно считать расходы (например за вас будут брать деньги за исходящий с сервера трафик). спасибо большое за обзор, буду изучать варианты ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.01.2017, 16:21 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
dies iraeПодскажите, плиз: Дано: Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры. Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум Требуется: построить reporting систему, в дальнейшем к ней прикрутить olap. Заказчик склоняется к open source решениям, в частности Hadoop + Hive Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов: Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку... Для начала определитесь, что такое биг-дата. 3ТБ структурированных данных это никакая не биг-дата. Это просто много данных. Для анализа всегда конечному пользователю нужны структурированных данные (Инмон). Поэтому городить огород ради модных слов я вам, как архитектор ХД с 20 летним опытом просто несоветую хотя бы еще по той причине, что потратите время, а от вас ждут конкретный результат за ограниченное время ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.01.2017, 17:48 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
dies iraeПодскажите, плиз: Дано: Ритейл, штук 300 серверов, на каждом MySql база идентичной структуры. Суммарный объём данных сейчас: 300Гб, закладываем десятикратный рост, пусть будет 3Тб максимум Требуется: построить reporting систему, в дальнейшем к ней прикрутить olap. Заказчик склоняется к open source решениям, в частности Hadoop + Hive Опыта с big data пока нет, поэтому хотелось бы услышать мнение специалистов: Стоит оно того или лучше выбрать вариант с ETL + DWH, например MSSQL + SSIS +MSAS? или порекомендуйте сравнимую open-source связку... Я под 3Гб в олап куб гружу. При правильном партиционировании и инкрементальном обновлении вполне работает. Когда данных много -- их желательно предаггрегировать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.01.2017, 18:02 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
хороший совет дал Критик. от себя добавлю: поскольку заказ идет от продажников, то ждите от них нежданчиков по бюджетам, срокам, хотелкам, а по сему делайте на том, на что есть опыт и СЛАЖЕННАЯ команда и думайте как их будете удерживать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.01.2017, 18:56 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
>>Заказчик склоняется к open source решениям Я думаю, он не знает других слов кроме хадуп. Для таких смешных объемов нужно нормальное mpp а-ля гринплам и пентахо для етл. Если хочет под инфраструктуру hadoop, то взять hdb. но в чистом виде хадуп брать это как ассемблер. У нас ретейл 18 тб на оракле бегает влёт без малейшей проблемы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.01.2017, 11:24 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
Leorisdies irae, ИМХО на любую систему надо смотреть с точки зрения простоты поддержки и использования. Что такое hadoop (если примитивно)? Это связка распределённой файловой системы + кластер машин на которых параллельно выполняются написанные вами обработчики. На нижнем уровне это Map и Reduce на java, в лучшем случае - Hive (надстройка над hadoop, позволяет делать sql запросы). hive уже не модно, модно impala. на низком уровне тоже сейчас больше шума вокруг spark+hadoop, вместо MapReduce. LeorisПоэтому с т.з. простоты администрирования: у вас есть люди, знающие как создавать и настраивать кластер hadoop? С точки зрения пользователя: есть люди, знающие java как минимум? То есть с хадупом достаточно большие накладные расходы и как писали коллеги для 3 ТБ его использовать неразумно - их и в оперативку поместить можно ) зависит от задач. я сейчас в проекте где порядка 30 баз по 30-100 гб в хадупе и оверкилом совсем не выглядят на 8 серверах затраты на хадуп будут меньше, чем лицензии на какой-нибудь mssql/oracle + их стебай. затраты там время разобраться. я бы посоветовал скачать cloudera quickstart vm и попробовать закинуть данные (важно в parquet формате) и потыркать в импале. даже в виртуалке на одном HDD меня лично впечатлила скорость. может быть с толковым джавистом там все будет на раз два три получаться. я очень люблю оракл и рсубд, но очень похоже, что эта хрень все таки очень быстро вытеснит DWH. лет через пять такие вопросы уже и не будет возникать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2017, 01:50 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
Yo.!, очень бегло посмотрел Impala, насколько успел понять достойная замена hive. Суть не в этом, а в том найти специалистов под хадуп можно, но дорого. Замечание насчёт стоимости лицензий правильное, но есть ведь и бесплатный аналоги, например Postgres. Её вполне можно использовать как аналитическую ДБ (если использовать партиционирование, а в 9.6 ещё и параллельные запросы появились). На объёмах 1-2 ТБ будет работать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2017, 11:11 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
LeorisYo.!, очень бегло посмотрел Impala, насколько успел понять достойная замена hive. Суть не в этом, а в том найти специалистов под хадуп можно, но дорого. Замечание насчёт стоимости лицензий правильное, но есть ведь и бесплатный аналоги, например Postgres. Её вполне можно использовать как аналитическую ДБ (если использовать партиционирование, а в 9.6 ещё и параллельные запросы появились). На объёмах 1-2 ТБ будет работать. А еще есть опенсорсный Greenplum. Правда нужны админы хорошие, которых еще меньше чем админов hive и Hadoop. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2017, 12:04 |
|
||
|
Размер данных 3Тб. Стоит ли связываться с Hadoop / big data ?
|
|||
|---|---|---|---|
|
#18+
Leorisочень бегло посмотрел Impala, насколько успел понять достойная замена hive. Суть не в этом, а в том найти специалистов под хадуп можно, но дорого. там все выглядит просто как огромная туча жава приложений, которая если уж поднялась то в принципе уже работает. на сколько я вижу у всех примерно одинаково все начинается, запускают это дело жава спецы. на удивление работает достаточно стабильно, я тоже ожидал каких-то мутных проблем, каких-нибудь стандартных java exception с классическим null point exception и даже их получал, насилуя кривыми запросами. но у меня ощущение, что для озвученного объема, без тучи юзеров, импала+хадуп почти никаких сложностей поднять не должно быть. другое дело, что там какая-то отчетная загагулина нужна еще. LeorisЗамечание насчёт стоимости лицензий правильное, но есть ведь и бесплатный аналоги, например Postgres. Её вполне можно использовать как аналитическую ДБ (если использовать партиционирование, а в 9.6 ещё и параллельные запросы появились). На объёмах 1-2 ТБ будет работать. зависит от задач, структур. зачастую дело то не в объемах. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2017, 12:12 |
|
||
|
|

start [/forum/topic.php?fid=49&fpage=34&tid=1858352]: |
0ms |
get settings: |
11ms |
get forum list: |
14ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
47ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
76ms |
get tp. blocked users: |
2ms |
| others: | 245ms |
| total: | 415ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...