|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Вопрос пока больше теоретический, но все же. Допустим, что нужно сделать тупое хранилище структурированных данных, аналитики никакой не планируется. Объем сырых данных 50 Петабайт. Требуется высокая надежность. К поиску информации есть такие требования: Код: plaintext 1. 2. 3. 4. 5.
На какой платформе это лучше всего можно реализовать? Чем дешевле в итоге будет стоимость хранения 1 ГБ, тем лучше. Но не в ущерб надежности. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 18:28 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
А эти 50 Пб откуда берутся? Они уже где-то хранятся или будут откуда-то поступать? Что за прожект? Конкурента ютубу строите? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 18:37 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Vovaka, сейчас Hadapt через год может быть Pivotal HD ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 18:48 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
VovakaДопустим, что нужно сделать тупое хранилище структурированных данных, аналитики никакой не планируется. В зависимости от того что понимается под "структурированными данными" сгодятся и плоские файлы и файловой системе. На RAID6 будет высокая надёжность. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 19:18 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
miksoftА эти 50 Пб откуда берутся? Они уже где-то хранятся или будут откуда-то поступать? Что за прожект? Конкурента ютубу строите? Да это пока теория, пока нигде не хранятся, будут поступать. Это очень приблизительная оценка. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 19:51 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovVovakaДопустим, что нужно сделать тупое хранилище структурированных данных, аналитики никакой не планируется. В зависимости от того что понимается под "структурированными данными" сгодятся и плоские файлы и файловой системе. На RAID6 будет высокая надёжность. В основном чистые машинногенерируемые данные. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 19:52 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
VovakaВ основном чистые машинногенерируемые данные. В таком случае, как я уже сказал, CSV файлы с разделением по нужным критериям (судя по первому посту это время) будут иметь приемлемые характеристики. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 20:02 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
lookatVovaka, сейчас Hadapt через год может быть Pivotal HD Про Pivotal HD даже и не слышал, причем GP в сое время плотно смотрели, интересно .. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 20:04 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovVovakaВ основном чистые машинногенерируемые данные. В таком случае, как я уже сказал, CSV файлы с разделением по нужным критериям (судя по первому посту это время) будут иметь приемлемые характеристики. Поисковые запросы учитывают время и некий критерий/ID (10-15 типов), которые могут комбинироваться. Ну а само хранение в файлах как-то не очень, кмк. Во первых хорошо бы их сжимать, во вторых кластер получается в сотни, а то и тысячи серверов и как этим всем рулить, не понятно. Первое, что пришло в голову, что-то типа hbase, но отзывы о надежности практически не оставляют шансов. Второе, все таки использовать mpp субд типа Вертики, это избавит от множества проблем, сильно сократит ресурсы на запуск и поддержку, но по финансам конечно не гуд. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 20:13 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Vovakaкластер получается в сотни, а то и тысячи серверов Зачем кластер-то? Один сервер с хранилищем на 50 петабайт в котором лежат 10е9 файлов по 32 мегабайта каждый. Первичная фильтрация по времени не займёт и секунды, оставишиеся по регламенту часы можно потратить на полное сканирование нужных файлов на предмет "критериев". Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 20:22 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovVovakaкластер получается в сотни, а то и тысячи серверов Зачем кластер-то? Один сервер с хранилищем на 50 петабайт в котором лежат 10е9 файлов по 32 мегабайта каждый. Первичная фильтрация по времени не займёт и секунды, оставишиеся по регламенту часы можно потратить на полное сканирование нужных файлов на предмет "критериев". Ну у меня есть уже пример когда съезжала крыша у высоконадежного сетевого хранилища, так что не все данные с помощью RnD вендора удалось восстановить, поэтому MPP + sharing nothing для надежного и производительного ХД, это как-бы стало парадигмой для меня, но здесь не совсем конечно классика. Ну и про часы - это только для небольшой части запросов, остальные должны укладываться в секунды, причем одновременных может быть много. Но надо конечно подумать и в этом направлении безусловно. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 20:29 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Vovakaу меня есть уже пример когда съезжала крыша у высоконадежного сетевого хранилища, так что не все данные с помощью RnD вендора удалось восстановить А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню... Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 20:44 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovА бэкапы делать, конечно же, никто не побеспокоился. Ню-ню... NAS был на сотню ТБ, там было очень много различных баз и систем, не все бекапилось, что-то по странному стечению обстоятельств, бекапилось физически на этот же NAS. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 20:54 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovVovakaу меня есть уже пример когда съезжала крыша у высоконадежного сетевого хранилища, так что не все данные с помощью RnD вендора удалось восстановить А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню... А как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2013, 23:48 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
ASCRUSDimitry Sibiryakovпропущено... А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню... А как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос.Распределение и дублирование данных закрывает далеко не все вопросы. Никто не отменял всякие Human Errors и баги в программном обеспечении. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2013, 00:00 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
ASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос. Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню... Маркетинг маркетингом, но физику-то забывать не надо. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2013, 00:01 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Тут, кстати, поддержу Дмитрия - я бы без наличия бэкап вообще ни на какие SLA не подписывался. Вон насколько больше Google в сервис Youtube вкладывает - и то периодически не получается проиграть видео в нужном мне разрешении. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2013, 00:03 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос. Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню... Маркетинг маркетингом, но физику-то забывать не надо. Физика физикой, но и Tape Backup никто не отменял. Тем более что, начиная с LTO-5, можно монтировать на ленте свою файловую систему (LFTS называется). Для Hadoop-Backup -- самое то. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2013, 00:24 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
lookat <snip> ... (LFTS называется)... </snip> Пардон, LTFS ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2013, 00:29 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос. Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню... Маркетинг маркетингом, но физику-то забывать не надо. Сделать копию на дешевых серверах с локальными дисками, которая автоматически становится активной при выходе из строя ее источника по любому дешевле чем два дисковых хранилища и работает эта схема в 24 x7 без остановки кластера. В Vertica например при ksafe=2 в кластере из 5 серверов нужно убить 3 сервера в правильной последовательности, чтобы кластер перестал работать. Причем при смерти сервера достаточно поставить новый, чтобы он быстро реплицировал на себя данные взамен убранного с соседей и включился в работу ... все это не прерывая работы. У hadoop немного по другому и скорость восстановления ниже, но смысл похожий. Но по мне для темы данного топика hadoop не подходит - требуется хранить уже изначально структурированные данные и проводить поиск по заданным критериям. Тогда зачем там map и тем более reduce, вот если будет задача хранить для использования оригинальные форматы и файлы данных, тогда он получается интересен, но все равно в связке с каким нибудь MPP, на котором можно хранить индекс для быстрого поиска оригинальных файлов. Все конечно мое imho, на hadoop пока не приводилось проектов делать в продакшн. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2013, 00:53 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
Ascrus, Hadoop вам не подойдет из-за требований к времени отклика, в Hadoop один подъем MapReduce Task'ов может занимать секунд 5-15, не говоря уже про связку с Pig или Hive у которых будет еще и свой overhead. Хотя даже если бы он вам подошел, то стоимость была бы довольно большой. Прикиньте стоимость просто оборудования хотя бы под Hadoop кластер таких объемов, с учетом того, что места нужно будет раза в 3.5 больше (3 копии блока - это дефолт из-за низкой надежности таких кластеров, 0.5 это на ОС, темпы и прочую канитель). На счет уложить все это на файловую систему - можно конечно попробовать, но во-первых SAN, который масштабируется до 50Пб тоже будет стоить не кисло, во-вторых вы будете замкнуты в рамках этой архитектуры в будущем, а я не думаю, что в один прекрасный день с этими данными не захотят сделать что-то поинтереснее, чем просто поиск по ключу. Т.е. разумнее сразу выбрать что-то погибче плоских файлов на файловой системе. А вот бэкап как раз таки не проблема, на ext3 вы такое количество файлов не положите, даже не пытайтесь, тут понадобиться нормальная коммерческая файловая система типа Veritas, а все эти открытые поделки можно смело отбросить - не тот калибр. Но в любом случае я бы так не делал. Если хочется совсем дешево, то вариантов и правда не много, можно смотреть либо в сторону Impala, либо Hadapt. Но продуктам без году неделя. У Терадаты для таких случаев есть Teradata 1650 Extreme Data Appliance. Но даже с очень хорошей скидкой и компрессией это будет стоить где-то в районе 2К за терабайт пользовательских данных, т.е. на таких объемах лямов 100. Дохера короче:) Мне больше интересно а 50 Пб - это за какой период? Если три года, то это 46 Тб в день. Что нужно искать в этих 46 Тб, чтобы это укладывалось в 3 сек? Одну запись по первичному ключу? ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2013, 03:30 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
ApexAscrus, Hadoop вам не подойдет из-за требований к времени отклика, в Hadoop один подъем MapReduce Task'ов может занимать секунд 5-15, не говоря уже про связку с Pig или Hive у которых будет еще и свой overhead. Хотя даже если бы он вам подошел, то стоимость была бы довольно большой. Прикиньте стоимость просто оборудования хотя бы под Hadoop кластер таких объемов, с учетом того, что места нужно будет раза в 3.5 больше (3 копии блока - это дефолт из-за низкой надежности таких кластеров, 0.5 это на ОС, темпы и прочую канитель). Почитал тут про реальные внедрения, как то грустно пока все ApexНа счет уложить все это на файловую систему - можно конечно попробовать, но во-первых SAN, который масштабируется до 50Пб тоже будет стоить не кисло, во-вторых вы будете замкнуты в рамках этой архитектуры в будущем, а я не думаю, что в один прекрасный день с этими данными не захотят сделать что-то поинтереснее, чем просто поиск по ключу. Т.е. разумнее сразу выбрать что-то погибче плоских файлов на файловой системе. Это очень правильная мысль, но пока мы просто рассуждаем в теории, аналитика может понадобиться, но уже в рамках другого, еще более масштабного проекта :) ApexА вот бэкап как раз таки не проблема, на ext3 вы такое количество файлов не положите, даже не пытайтесь, тут понадобиться нормальная коммерческая файловая система типа Veritas, а все эти открытые поделки можно смело отбросить - не тот калибр. Но в любом случае я бы так не делал. Ну насчет не проблема, я бы не согласился. Сколько он делаться будет и восстанавливаться? Как увязать восстановление и избежать простоя сервиса в разумных пределах на таких объемах? Проблем тут как раз достаточно на мой взгляд. Система должна обеспечивать постоянную доступность. ApexЕсли хочется совсем дешево, то вариантов и правда не много, можно смотреть либо в сторону Impala, либо Hadapt. Но продуктам без году неделя. Эт точно ApexУ Терадаты для таких случаев есть Teradata 1650 Extreme Data Appliance. Но даже с очень хорошей скидкой и компрессией это будет стоить где-то в районе 2К за терабайт пользовательских данных, т.е. на таких объемах лямов 100. Дохера короче:) Прикинул Вертику вместе с железом, примерно так же и выходит ApexМне больше интересно а 50 Пб - это за какой период? Если три года, то это 46 Тб в день. Что нужно искать в этих 46 Тб, чтобы это укладывалось в 3 сек? Одну запись по первичному ключу? Для одной записи норматив еще жестче - 1 сек :), это поиск в справочниках. А эта временная таблица для фактов, там как уж повезет, может и одна запись, может больше. Но это пока проект, готовят люди, не в полной мере себе представляющие получающиеся объемы данных, цифры возможно изменятся. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2013, 09:18 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
VovkaСколько он делаться будет и восстанавливаться? А это уже целиком зависит от политики бэкапирования. Инкрементальный бэкап восстановится быстро. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2013, 10:00 |
|
ХД на 50 ПБ структурированных данных, выбор платформы
|
|||
---|---|---|---|
#18+
По сабжу 1 .Любая БД которая поддерживает RO табличные пространства, с возможность отключения подключения RO датафайлов на лету. 2. Любая ОС , которая поддерживает LVM, и перемещение данных на лету между томами , незаметно для БД, что бы наращивать обьемы новыми стораджами и перемещать данные между стораджами без остановок. 3. Любой сторадж, на котором с хоста можно поставить и снять RO флажок на датафайлах ( томах) и раздать нескольким серверам. Желающие могут озвучить возможных кандидатов по 3 пунктам. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2013, 12:51 |
|
|
start [/forum/topic.php?fid=35&msg=38236419&tid=1552462]: |
0ms |
get settings: |
10ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
40ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
58ms |
get tp. blocked users: |
1ms |
others: | 252ms |
total: | 391ms |
0 / 0 |