Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / ХД на 50 ПБ структурированных данных, выбор платформы / 25 сообщений из 31, страница 1 из 2
22.04.2013, 18:28
    #38235542
Vovaka
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Вопрос пока больше теоретический, но все же. Допустим, что нужно сделать тупое хранилище структурированных данных, аналитики никакой не планируется. Объем сырых данных 50 Петабайт. Требуется высокая надежность. К поиску информации есть такие требования:

Код: plaintext
1.
2.
3.
4.
5.
№	Класс параметра запроса	Временной интервал
		до  суток	до 1 месяца	до 6 месяцев	До 1 года	до 3 лет
1	К1	< 3 сек.	< 5 сек.	< 15 сек.	< 25 сек.	< 50 сек.
2	К2	<1 мин	        <10 мин	        <30 мин	        <1 часа	        <3 часов
3	К3	< 7 мин				

На какой платформе это лучше всего можно реализовать? Чем дешевле в итоге будет стоимость хранения 1 ГБ, тем лучше. Но не в ущерб надежности.
...
Рейтинг: 0 / 0
22.04.2013, 18:37
    #38235552
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
А эти 50 Пб откуда берутся? Они уже где-то хранятся или будут откуда-то поступать?

Что за прожект? Конкурента ютубу строите?
...
Рейтинг: 0 / 0
22.04.2013, 18:48
    #38235567
lookat
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Vovaka,

сейчас Hadapt
через год может быть Pivotal HD
...
Рейтинг: 0 / 0
22.04.2013, 19:18
    #38235598
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
VovakaДопустим, что нужно сделать тупое хранилище структурированных данных,
аналитики никакой не планируется.
В зависимости от того что понимается под "структурированными данными" сгодятся и плоские
файлы и файловой системе. На RAID6 будет высокая надёжность.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
22.04.2013, 19:51
    #38235630
Vovaka
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
miksoftА эти 50 Пб откуда берутся? Они уже где-то хранятся или будут откуда-то поступать?

Что за прожект? Конкурента ютубу строите?

Да это пока теория, пока нигде не хранятся, будут поступать. Это очень приблизительная оценка.
...
Рейтинг: 0 / 0
22.04.2013, 19:52
    #38235633
Vovaka
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Dimitry SibiryakovVovakaДопустим, что нужно сделать тупое хранилище структурированных данных,
аналитики никакой не планируется.
В зависимости от того что понимается под "структурированными данными" сгодятся и плоские
файлы и файловой системе. На RAID6 будет высокая надёжность.


В основном чистые машинногенерируемые данные.
...
Рейтинг: 0 / 0
22.04.2013, 20:02
    #38235640
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
VovakaВ основном чистые машинногенерируемые данные.
В таком случае, как я уже сказал, CSV файлы с разделением по нужным критериям (судя по
первому посту это время) будут иметь приемлемые характеристики.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
22.04.2013, 20:04
    #38235641
Vovaka
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
lookatVovaka,

сейчас Hadapt
через год может быть Pivotal HD

Про Pivotal HD даже и не слышал, причем GP в сое время плотно смотрели, интересно ..
...
Рейтинг: 0 / 0
22.04.2013, 20:13
    #38235651
Vovaka
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Dimitry SibiryakovVovakaВ основном чистые машинногенерируемые данные.
В таком случае, как я уже сказал, CSV файлы с разделением по нужным критериям (судя по
первому посту это время) будут иметь приемлемые характеристики.


Поисковые запросы учитывают время и некий критерий/ID (10-15 типов), которые могут комбинироваться.
Ну а само хранение в файлах как-то не очень, кмк. Во первых хорошо бы их сжимать, во вторых кластер получается в сотни, а то и тысячи серверов и как этим всем рулить, не понятно. Первое, что пришло в голову, что-то типа hbase, но отзывы о надежности практически не оставляют шансов. Второе, все таки использовать mpp субд типа Вертики, это избавит от множества проблем, сильно сократит ресурсы на запуск и поддержку, но по финансам конечно не гуд.
...
Рейтинг: 0 / 0
22.04.2013, 20:22
    #38235661
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Vovakaкластер получается в сотни, а то и тысячи серверов
Зачем кластер-то? Один сервер с хранилищем на 50 петабайт в котором лежат 10е9 файлов по
32 мегабайта каждый. Первичная фильтрация по времени не займёт и секунды, оставишиеся по
регламенту часы можно потратить на полное сканирование нужных файлов на предмет "критериев".
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
22.04.2013, 20:29
    #38235670
Vovaka
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Dimitry SibiryakovVovakaкластер получается в сотни, а то и тысячи серверов
Зачем кластер-то? Один сервер с хранилищем на 50 петабайт в котором лежат 10е9 файлов по
32 мегабайта каждый. Первичная фильтрация по времени не займёт и секунды, оставишиеся по
регламенту часы можно потратить на полное сканирование нужных файлов на предмет "критериев".


Ну у меня есть уже пример когда съезжала крыша у высоконадежного сетевого хранилища, так что не все данные с помощью RnD вендора удалось восстановить, поэтому MPP + sharing nothing для надежного и производительного ХД, это как-бы стало парадигмой для меня, но здесь не совсем конечно классика. Ну и про часы - это только для небольшой части запросов, остальные должны укладываться в секунды, причем одновременных может быть много. Но надо конечно подумать и в этом направлении безусловно.
...
Рейтинг: 0 / 0
22.04.2013, 20:44
    #38235684
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Vovakaу меня есть уже пример когда съезжала крыша у высоконадежного сетевого
хранилища, так что не все данные с помощью RnD вендора удалось восстановить

А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
22.04.2013, 20:54
    #38235691
Vovaka
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Dimitry SibiryakovА бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...


NAS был на сотню ТБ, там было очень много различных баз и систем, не все бекапилось, что-то по странному стечению обстоятельств, бекапилось физически на этот же NAS.
...
Рейтинг: 0 / 0
22.04.2013, 23:48
    #38235810
ASCRUS
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Dimitry SibiryakovVovakaу меня есть уже пример когда съезжала крыша у высоконадежного сетевого
хранилища, так что не все данные с помощью RnD вендора удалось восстановить

А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...

А как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос.
...
Рейтинг: 0 / 0
23.04.2013, 00:00
    #38235821
Alexander Ryndin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
ASCRUSDimitry Sibiryakovпропущено...

А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...

А как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос.Распределение и дублирование данных закрывает далеко не все вопросы.
Никто не отменял всякие Human Errors и баги в программном обеспечении.
...
Рейтинг: 0 / 0
23.04.2013, 00:01
    #38235825
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
ASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его
восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные
файловые системы или MPP сервера как раз и пытаются решать этот вопрос.

Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а
сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню...

Маркетинг маркетингом, но физику-то забывать не надо.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
23.04.2013, 00:03
    #38235829
Alexander Ryndin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Тут, кстати, поддержу Дмитрия - я бы без наличия бэкап вообще ни на какие SLA не подписывался.
Вон насколько больше Google в сервис Youtube вкладывает - и то периодически не получается проиграть видео в нужном мне разрешении.
...
Рейтинг: 0 / 0
23.04.2013, 00:24
    #38235848
lookat
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Dimitry SibiryakovASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его
восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные
файловые системы или MPP сервера как раз и пытаются решать этот вопрос.

Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а
сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню...

Маркетинг маркетингом, но физику-то забывать не надо.


Физика физикой, но и Tape Backup никто не отменял.
Тем более что, начиная с LTO-5, можно монтировать
на ленте свою файловую систему (LFTS называется).
Для Hadoop-Backup -- самое то.
...
Рейтинг: 0 / 0
23.04.2013, 00:29
    #38235852
lookat
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
lookat

<snip>
... (LFTS называется)...
</snip>



Пардон, LTFS
...
Рейтинг: 0 / 0
23.04.2013, 00:53
    #38235856
ASCRUS
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Dimitry SibiryakovASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его
восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные
файловые системы или MPP сервера как раз и пытаются решать этот вопрос.

Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а
сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню...

Маркетинг маркетингом, но физику-то забывать не надо.

Сделать копию на дешевых серверах с локальными дисками, которая автоматически становится активной при выходе из строя ее источника по любому дешевле чем два дисковых хранилища и работает эта схема в 24 x7 без остановки кластера. В Vertica например при ksafe=2 в кластере из 5 серверов нужно убить 3 сервера в правильной последовательности, чтобы кластер перестал работать. Причем при смерти сервера достаточно поставить новый, чтобы он быстро реплицировал на себя данные взамен убранного с соседей и включился в работу ... все это не прерывая работы. У hadoop немного по другому и скорость восстановления ниже, но смысл похожий. Но по мне для темы данного топика hadoop не подходит - требуется хранить уже изначально структурированные данные и проводить поиск по заданным критериям. Тогда зачем там map и тем более reduce, вот если будет задача хранить для использования оригинальные форматы и файлы данных, тогда он получается интересен, но все равно в связке с каким нибудь MPP, на котором можно хранить индекс для быстрого поиска оригинальных файлов. Все конечно мое imho, на hadoop пока не приводилось проектов делать в продакшн.
...
Рейтинг: 0 / 0
23.04.2013, 03:30
    #38235892
Apex
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
Ascrus, Hadoop вам не подойдет из-за требований к времени отклика, в Hadoop один подъем MapReduce Task'ов может занимать секунд 5-15, не говоря уже про связку с Pig или Hive у которых будет еще и свой overhead.
Хотя даже если бы он вам подошел, то стоимость была бы довольно большой. Прикиньте стоимость просто оборудования хотя бы под Hadoop кластер таких объемов, с учетом того, что места нужно будет раза в 3.5 больше (3 копии блока - это дефолт из-за низкой надежности таких кластеров, 0.5 это на ОС, темпы и прочую канитель).

На счет уложить все это на файловую систему - можно конечно попробовать, но во-первых SAN, который масштабируется до 50Пб тоже будет стоить не кисло, во-вторых вы будете замкнуты в рамках этой архитектуры в будущем, а я не думаю, что в один прекрасный день с этими данными не захотят сделать что-то поинтереснее, чем просто поиск по ключу. Т.е. разумнее сразу выбрать что-то погибче плоских файлов на файловой системе. А вот бэкап как раз таки не проблема, на ext3 вы такое количество файлов не положите, даже не пытайтесь, тут понадобиться нормальная коммерческая файловая система типа Veritas, а все эти открытые поделки можно смело отбросить - не тот калибр. Но в любом случае я бы так не делал.

Если хочется совсем дешево, то вариантов и правда не много, можно смотреть либо в сторону Impala, либо Hadapt. Но продуктам без году неделя.
У Терадаты для таких случаев есть Teradata 1650 Extreme Data Appliance. Но даже с очень хорошей скидкой и компрессией это будет стоить где-то в районе 2К за терабайт пользовательских данных, т.е. на таких объемах лямов 100. Дохера короче:)

Мне больше интересно а 50 Пб - это за какой период? Если три года, то это 46 Тб в день. Что нужно искать в этих 46 Тб, чтобы это укладывалось в 3 сек? Одну запись по первичному ключу?
...
Рейтинг: 0 / 0
23.04.2013, 09:18
    #38235988
Vovaka
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
ApexAscrus, Hadoop вам не подойдет из-за требований к времени отклика, в Hadoop один подъем MapReduce Task'ов может занимать секунд 5-15, не говоря уже про связку с Pig или Hive у которых будет еще и свой overhead.
Хотя даже если бы он вам подошел, то стоимость была бы довольно большой. Прикиньте стоимость просто оборудования хотя бы под Hadoop кластер таких объемов, с учетом того, что места нужно будет раза в 3.5 больше (3 копии блока - это дефолт из-за низкой надежности таких кластеров, 0.5 это на ОС, темпы и прочую канитель).

Почитал тут про реальные внедрения, как то грустно пока все

ApexНа счет уложить все это на файловую систему - можно конечно попробовать, но во-первых SAN, который масштабируется до 50Пб тоже будет стоить не кисло, во-вторых вы будете замкнуты в рамках этой архитектуры в будущем, а я не думаю, что в один прекрасный день с этими данными не захотят сделать что-то поинтереснее, чем просто поиск по ключу. Т.е. разумнее сразу выбрать что-то погибче плоских файлов на файловой системе.

Это очень правильная мысль, но пока мы просто рассуждаем в теории, аналитика может понадобиться, но уже в рамках другого, еще более масштабного проекта :)

ApexА вот бэкап как раз таки не проблема, на ext3 вы такое количество файлов не положите, даже не пытайтесь, тут понадобиться нормальная коммерческая файловая система типа Veritas, а все эти открытые поделки можно смело отбросить - не тот калибр. Но в любом случае я бы так не делал.

Ну насчет не проблема, я бы не согласился. Сколько он делаться будет и восстанавливаться? Как увязать восстановление и избежать простоя сервиса в разумных пределах на таких объемах? Проблем тут как раз достаточно на мой взгляд. Система должна обеспечивать постоянную доступность.

ApexЕсли хочется совсем дешево, то вариантов и правда не много, можно смотреть либо в сторону Impala, либо Hadapt. Но продуктам без году неделя.

Эт точно

ApexУ Терадаты для таких случаев есть Teradata 1650 Extreme Data Appliance. Но даже с очень хорошей скидкой и компрессией это будет стоить где-то в районе 2К за терабайт пользовательских данных, т.е. на таких объемах лямов 100. Дохера короче:)

Прикинул Вертику вместе с железом, примерно так же и выходит

ApexМне больше интересно а 50 Пб - это за какой период? Если три года, то это 46 Тб в день. Что нужно искать в этих 46 Тб, чтобы это укладывалось в 3 сек? Одну запись по первичному ключу?

Для одной записи норматив еще жестче - 1 сек :), это поиск в справочниках. А эта временная таблица для фактов, там как уж повезет, может и одна запись, может больше. Но это пока проект, готовят люди, не в полной мере себе представляющие получающиеся объемы данных, цифры возможно изменятся.
...
Рейтинг: 0 / 0
23.04.2013, 10:00
    #38236059
Apex
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
VovkaСколько он делаться будет и восстанавливаться?
А это уже целиком зависит от политики бэкапирования. Инкрементальный бэкап восстановится быстро.
...
Рейтинг: 0 / 0
23.04.2013, 12:51
    #38236419
ДохтаР
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
По сабжу

1 .Любая БД которая поддерживает RO табличные пространства, с возможность отключения подключения
RO датафайлов на лету.

2. Любая ОС , которая поддерживает LVM, и перемещение данных на лету между томами , незаметно для БД, что бы наращивать обьемы новыми стораджами и перемещать данные между стораджами без остановок.

3. Любой сторадж, на котором с хоста можно поставить и снять RO флажок на датафайлах ( томах)
и раздать нескольким серверам.


Желающие могут озвучить возможных кандидатов по 3 пунктам.
...
Рейтинг: 0 / 0
23.04.2013, 12:53
    #38236428
ДохтаР
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ХД на 50 ПБ структурированных данных, выбор платформы
4. Мозги архитектора , спроеткировать хранение и загнать данные так ,
что бы система сама себе не наступала на RO хвосты ,
и обеспечивала достаточную производительность.
...
Рейтинг: 0 / 0
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / ХД на 50 ПБ структурированных данных, выбор платформы / 25 сообщений из 31, страница 1 из 2
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]