ХД на 50 ПБ структурированных данных, выбор платформы / Сравнение СУБД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / ХД на 50 ПБ структурированных данных, выбор платформы

25 сообщений из 31, страница 1 из 2

все

ХД на 50 ПБ структурированных данных, выбор платформы

#38235542

Vovaka

Участник

Откуда: Москва

Сообщения: 532

Рейтинг: 0 / 0

Вопрос пока больше теоретический, но все же. Допустим, что нужно сделать тупое хранилище структурированных данных, аналитики никакой не планируется. Объем сырых данных 50 Петабайт. Требуется высокая надежность. К поиску информации есть такие требования:

Код: plaintext

1.
2.
3.
4.
5.

№	Класс параметра запроса	Временной интервал
		до  суток	до 1 месяца	до 6 месяцев	До 1 года	до 3 лет
1	К1	< 3 сек.	< 5 сек.	< 15 сек.	< 25 сек.	< 50 сек.
2	К2	<1 мин	        <10 мин	        <30 мин	        <1 часа	        <3 часов
3	К3	< 7 мин

На какой платформе это лучше всего можно реализовать? Чем дешевле в итоге будет стоимость хранения 1 ГБ, тем лучше. Но не в ущерб надежности.

...

Рейтинг:

0 / 0

22.04.2013, 18:28

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235552

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

А эти 50 Пб откуда берутся? Они уже где-то хранятся или будут откуда-то поступать?

Что за прожект? Конкурента ютубу строите?

...

Рейтинг:

0 / 0

22.04.2013, 18:37

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235567

lookat

Гость

Vovaka,

сейчас Hadapt
через год может быть Pivotal HD

...

Рейтинг:

0 / 0

22.04.2013, 18:48

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235598

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

VovakaДопустим, что нужно сделать тупое хранилище структурированных данных,
аналитики никакой не планируется.
В зависимости от того что понимается под "структурированными данными" сгодятся и плоские
файлы и файловой системе. На RAID6 будет высокая надёжность.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

22.04.2013, 19:18

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235630

Vovaka

Участник

Откуда: Москва

Сообщения: 532

Рейтинг: 0 / 0

miksoftА эти 50 Пб откуда берутся? Они уже где-то хранятся или будут откуда-то поступать?

Что за прожект? Конкурента ютубу строите?

Да это пока теория, пока нигде не хранятся, будут поступать. Это очень приблизительная оценка.

...

Рейтинг:

0 / 0

22.04.2013, 19:51

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235633

Vovaka

Участник

Откуда: Москва

Сообщения: 532

Рейтинг: 0 / 0

Dimitry SibiryakovVovakaДопустим, что нужно сделать тупое хранилище структурированных данных,
аналитики никакой не планируется.
В зависимости от того что понимается под "структурированными данными" сгодятся и плоские
файлы и файловой системе. На RAID6 будет высокая надёжность.

В основном чистые машинногенерируемые данные.

...

Рейтинг:

0 / 0

22.04.2013, 19:52

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235640

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

VovakaВ основном чистые машинногенерируемые данные.
В таком случае, как я уже сказал, CSV файлы с разделением по нужным критериям (судя по
первому посту это время) будут иметь приемлемые характеристики.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

22.04.2013, 20:02

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235641

Vovaka

Участник

Откуда: Москва

Сообщения: 532

Рейтинг: 0 / 0

lookatVovaka,

сейчас Hadapt
через год может быть Pivotal HD

Про Pivotal HD даже и не слышал, причем GP в сое время плотно смотрели, интересно ..

...

Рейтинг:

0 / 0

22.04.2013, 20:04

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235651

Vovaka

Участник

Откуда: Москва

Сообщения: 532

Рейтинг: 0 / 0

Dimitry SibiryakovVovakaВ основном чистые машинногенерируемые данные.
В таком случае, как я уже сказал, CSV файлы с разделением по нужным критериям (судя по
первому посту это время) будут иметь приемлемые характеристики.

Поисковые запросы учитывают время и некий критерий/ID (10-15 типов), которые могут комбинироваться.
Ну а само хранение в файлах как-то не очень, кмк. Во первых хорошо бы их сжимать, во вторых кластер получается в сотни, а то и тысячи серверов и как этим всем рулить, не понятно. Первое, что пришло в голову, что-то типа hbase, но отзывы о надежности практически не оставляют шансов. Второе, все таки использовать mpp субд типа Вертики, это избавит от множества проблем, сильно сократит ресурсы на запуск и поддержку, но по финансам конечно не гуд.

...

Рейтинг:

0 / 0

22.04.2013, 20:13

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235661

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

Vovakaкластер получается в сотни, а то и тысячи серверов
Зачем кластер-то? Один сервер с хранилищем на 50 петабайт в котором лежат 10е9 файлов по
32 мегабайта каждый. Первичная фильтрация по времени не займёт и секунды, оставишиеся по
регламенту часы можно потратить на полное сканирование нужных файлов на предмет "критериев".
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

22.04.2013, 20:22

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235670

Vovaka

Участник

Откуда: Москва

Сообщения: 532

Рейтинг: 0 / 0

Dimitry SibiryakovVovakaкластер получается в сотни, а то и тысячи серверов
Зачем кластер-то? Один сервер с хранилищем на 50 петабайт в котором лежат 10е9 файлов по
32 мегабайта каждый. Первичная фильтрация по времени не займёт и секунды, оставишиеся по
регламенту часы можно потратить на полное сканирование нужных файлов на предмет "критериев".

Ну у меня есть уже пример когда съезжала крыша у высоконадежного сетевого хранилища, так что не все данные с помощью RnD вендора удалось восстановить, поэтому MPP + sharing nothing для надежного и производительного ХД, это как-бы стало парадигмой для меня, но здесь не совсем конечно классика. Ну и про часы - это только для небольшой части запросов, остальные должны укладываться в секунды, причем одновременных может быть много. Но надо конечно подумать и в этом направлении безусловно.

...

Рейтинг:

0 / 0

22.04.2013, 20:29

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235684

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

Vovakaу меня есть уже пример когда съезжала крыша у высоконадежного сетевого
хранилища, так что не все данные с помощью RnD вендора удалось восстановить

А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

22.04.2013, 20:44

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235691

Vovaka

Участник

Откуда: Москва

Сообщения: 532

Рейтинг: 0 / 0

Dimitry SibiryakovА бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...

NAS был на сотню ТБ, там было очень много различных баз и систем, не все бекапилось, что-то по странному стечению обстоятельств, бекапилось физически на этот же NAS.

...

Рейтинг:

0 / 0

22.04.2013, 20:54

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235810

ASCRUS

Участник

Откуда: МО Электросталь

Сообщения: 5 642

Рейтинг: 0 / 0

Dimitry SibiryakovVovakaу меня есть уже пример когда съезжала крыша у высоконадежного сетевого
хранилища, так что не все данные с помощью RnD вендора удалось восстановить

А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...

А как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос.

...

Рейтинг:

0 / 0

22.04.2013, 23:48

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235821

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

ASCRUSDimitry Sibiryakovпропущено...

А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...

А как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос.Распределение и дублирование данных закрывает далеко не все вопросы.
Никто не отменял всякие Human Errors и баги в программном обеспечении.

...

Рейтинг:

0 / 0

23.04.2013, 00:00

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235825

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

ASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его
восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные
файловые системы или MPP сервера как раз и пытаются решать этот вопрос.

Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а
сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню...

Маркетинг маркетингом, но физику-то забывать не надо.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

23.04.2013, 00:01

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235829

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

Тут, кстати, поддержу Дмитрия - я бы без наличия бэкап вообще ни на какие SLA не подписывался.
Вон насколько больше Google в сервис Youtube вкладывает - и то периодически не получается проиграть видео в нужном мне разрешении.

...

Рейтинг:

0 / 0

23.04.2013, 00:03

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235848

lookat

Гость

...

Рейтинг:

0 / 0

23.04.2013, 00:24

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235852

lookat

Гость

lookat

<snip>
... (LFTS называется)...
</snip>

Пардон, LTFS

...

Рейтинг:

0 / 0

23.04.2013, 00:29

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235856

ASCRUS

Участник

Откуда: МО Электросталь

Сообщения: 5 642

Рейтинг: 0 / 0

Dimitry SibiryakovASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его
восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные
файловые системы или MPP сервера как раз и пытаются решать этот вопрос.

Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а
сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню...

Маркетинг маркетингом, но физику-то забывать не надо.

Сделать копию на дешевых серверах с локальными дисками, которая автоматически становится активной при выходе из строя ее источника по любому дешевле чем два дисковых хранилища и работает эта схема в 24 x7 без остановки кластера. В Vertica например при ksafe=2 в кластере из 5 серверов нужно убить 3 сервера в правильной последовательности, чтобы кластер перестал работать. Причем при смерти сервера достаточно поставить новый, чтобы он быстро реплицировал на себя данные взамен убранного с соседей и включился в работу ... все это не прерывая работы. У hadoop немного по другому и скорость восстановления ниже, но смысл похожий. Но по мне для темы данного топика hadoop не подходит - требуется хранить уже изначально структурированные данные и проводить поиск по заданным критериям. Тогда зачем там map и тем более reduce, вот если будет задача хранить для использования оригинальные форматы и файлы данных, тогда он получается интересен, но все равно в связке с каким нибудь MPP, на котором можно хранить индекс для быстрого поиска оригинальных файлов. Все конечно мое imho, на hadoop пока не приводилось проектов делать в продакшн.

...

Рейтинг:

0 / 0

23.04.2013, 00:53

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235892

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Ascrus, Hadoop вам не подойдет из-за требований к времени отклика, в Hadoop один подъем MapReduce Task'ов может занимать секунд 5-15, не говоря уже про связку с Pig или Hive у которых будет еще и свой overhead.
Хотя даже если бы он вам подошел, то стоимость была бы довольно большой. Прикиньте стоимость просто оборудования хотя бы под Hadoop кластер таких объемов, с учетом того, что места нужно будет раза в 3.5 больше (3 копии блока - это дефолт из-за низкой надежности таких кластеров, 0.5 это на ОС, темпы и прочую канитель).

На счет уложить все это на файловую систему - можно конечно попробовать, но во-первых SAN, который масштабируется до 50Пб тоже будет стоить не кисло, во-вторых вы будете замкнуты в рамках этой архитектуры в будущем, а я не думаю, что в один прекрасный день с этими данными не захотят сделать что-то поинтереснее, чем просто поиск по ключу. Т.е. разумнее сразу выбрать что-то погибче плоских файлов на файловой системе. А вот бэкап как раз таки не проблема, на ext3 вы такое количество файлов не положите, даже не пытайтесь, тут понадобиться нормальная коммерческая файловая система типа Veritas, а все эти открытые поделки можно смело отбросить - не тот калибр. Но в любом случае я бы так не делал.

Если хочется совсем дешево, то вариантов и правда не много, можно смотреть либо в сторону Impala, либо Hadapt. Но продуктам без году неделя.
У Терадаты для таких случаев есть Teradata 1650 Extreme Data Appliance. Но даже с очень хорошей скидкой и компрессией это будет стоить где-то в районе 2К за терабайт пользовательских данных, т.е. на таких объемах лямов 100. Дохера короче:)

Мне больше интересно а 50 Пб - это за какой период? Если три года, то это 46 Тб в день. Что нужно искать в этих 46 Тб, чтобы это укладывалось в 3 сек? Одну запись по первичному ключу?

...

Рейтинг:

0 / 0

23.04.2013, 03:30

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38235988

Vovaka

Участник

Откуда: Москва

Сообщения: 532

Рейтинг: 0 / 0

ApexAscrus, Hadoop вам не подойдет из-за требований к времени отклика, в Hadoop один подъем MapReduce Task'ов может занимать секунд 5-15, не говоря уже про связку с Pig или Hive у которых будет еще и свой overhead.
Хотя даже если бы он вам подошел, то стоимость была бы довольно большой. Прикиньте стоимость просто оборудования хотя бы под Hadoop кластер таких объемов, с учетом того, что места нужно будет раза в 3.5 больше (3 копии блока - это дефолт из-за низкой надежности таких кластеров, 0.5 это на ОС, темпы и прочую канитель).

Почитал тут про реальные внедрения, как то грустно пока все

ApexНа счет уложить все это на файловую систему - можно конечно попробовать, но во-первых SAN, который масштабируется до 50Пб тоже будет стоить не кисло, во-вторых вы будете замкнуты в рамках этой архитектуры в будущем, а я не думаю, что в один прекрасный день с этими данными не захотят сделать что-то поинтереснее, чем просто поиск по ключу. Т.е. разумнее сразу выбрать что-то погибче плоских файлов на файловой системе.

Это очень правильная мысль, но пока мы просто рассуждаем в теории, аналитика может понадобиться, но уже в рамках другого, еще более масштабного проекта :)

ApexА вот бэкап как раз таки не проблема, на ext3 вы такое количество файлов не положите, даже не пытайтесь, тут понадобиться нормальная коммерческая файловая система типа Veritas, а все эти открытые поделки можно смело отбросить - не тот калибр. Но в любом случае я бы так не делал.

Ну насчет не проблема, я бы не согласился. Сколько он делаться будет и восстанавливаться? Как увязать восстановление и избежать простоя сервиса в разумных пределах на таких объемах? Проблем тут как раз достаточно на мой взгляд. Система должна обеспечивать постоянную доступность.

ApexЕсли хочется совсем дешево, то вариантов и правда не много, можно смотреть либо в сторону Impala, либо Hadapt. Но продуктам без году неделя.

Эт точно

ApexУ Терадаты для таких случаев есть Teradata 1650 Extreme Data Appliance. Но даже с очень хорошей скидкой и компрессией это будет стоить где-то в районе 2К за терабайт пользовательских данных, т.е. на таких объемах лямов 100. Дохера короче:)

Прикинул Вертику вместе с железом, примерно так же и выходит

ApexМне больше интересно а 50 Пб - это за какой период? Если три года, то это 46 Тб в день. Что нужно искать в этих 46 Тб, чтобы это укладывалось в 3 сек? Одну запись по первичному ключу?

Для одной записи норматив еще жестче - 1 сек :), это поиск в справочниках. А эта временная таблица для фактов, там как уж повезет, может и одна запись, может больше. Но это пока проект, готовят люди, не в полной мере себе представляющие получающиеся объемы данных, цифры возможно изменятся.

...

Рейтинг:

0 / 0

23.04.2013, 09:18

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38236059

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

VovkaСколько он делаться будет и восстанавливаться?
А это уже целиком зависит от политики бэкапирования. Инкрементальный бэкап восстановится быстро.

...

Рейтинг:

0 / 0

23.04.2013, 10:00

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38236419

ДохтаР

Участник

Откуда: Новоукраинск

Сообщения: 17 946

Рейтинг: 0 / 0

По сабжу

1 .Любая БД которая поддерживает RO табличные пространства, с возможность отключения подключения
RO датафайлов на лету.

2. Любая ОС , которая поддерживает LVM, и перемещение данных на лету между томами , незаметно для БД, что бы наращивать обьемы новыми стораджами и перемещать данные между стораджами без остановок.

3. Любой сторадж, на котором с хоста можно поставить и снять RO флажок на датафайлах ( томах)
и раздать нескольким серверам.

Желающие могут озвучить возможных кандидатов по 3 пунктам.

...

Рейтинг:

0 / 0

23.04.2013, 12:51

| Ответить | Цитировать | Написать

ХД на 50 ПБ структурированных данных, выбор платформы

#38236428

ДохтаР

Участник

Откуда: Новоукраинск

Сообщения: 17 946

Рейтинг: 0 / 0

4. Мозги архитектора , спроеткировать хранение и загнать данные так ,
что бы система сама себе не наступала на RO хвосты ,
и обеспечивала достаточную производительность.

...

Рейтинг:

0 / 0

23.04.2013, 12:53

| Ответить | Цитировать | Написать

25 сообщений из 31, страница 1 из 2

все

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=35&msg=38236419&tid=1552462]:	0ms
get settings:	8ms
get forum list:	18ms
check forum access:	3ms
check topic access:	3ms
track hit:	34ms
get topic data:	9ms
get forum data:	2ms
get page messages:	74ms
get tp. blocked users:	2ms
others:	226ms

total:	379ms