powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / ХД на 50 ПБ структурированных данных, выбор платформы
31 сообщений из 31, показаны все 2 страниц
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235542
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вопрос пока больше теоретический, но все же. Допустим, что нужно сделать тупое хранилище структурированных данных, аналитики никакой не планируется. Объем сырых данных 50 Петабайт. Требуется высокая надежность. К поиску информации есть такие требования:

Код: plaintext
1.
2.
3.
4.
5.
№	Класс параметра запроса	Временной интервал
		до  суток	до 1 месяца	до 6 месяцев	До 1 года	до 3 лет
1	К1	< 3 сек.	< 5 сек.	< 15 сек.	< 25 сек.	< 50 сек.
2	К2	<1 мин	        <10 мин	        <30 мин	        <1 часа	        <3 часов
3	К3	< 7 мин				

На какой платформе это лучше всего можно реализовать? Чем дешевле в итоге будет стоимость хранения 1 ГБ, тем лучше. Но не в ущерб надежности.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235552
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А эти 50 Пб откуда берутся? Они уже где-то хранятся или будут откуда-то поступать?

Что за прожект? Конкурента ютубу строите?
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235567
lookat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Vovaka,

сейчас Hadapt
через год может быть Pivotal HD
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235598
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VovakaДопустим, что нужно сделать тупое хранилище структурированных данных,
аналитики никакой не планируется.
В зависимости от того что понимается под "структурированными данными" сгодятся и плоские
файлы и файловой системе. На RAID6 будет высокая надёжность.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235630
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
miksoftА эти 50 Пб откуда берутся? Они уже где-то хранятся или будут откуда-то поступать?

Что за прожект? Конкурента ютубу строите?

Да это пока теория, пока нигде не хранятся, будут поступать. Это очень приблизительная оценка.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235633
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovVovakaДопустим, что нужно сделать тупое хранилище структурированных данных,
аналитики никакой не планируется.
В зависимости от того что понимается под "структурированными данными" сгодятся и плоские
файлы и файловой системе. На RAID6 будет высокая надёжность.


В основном чистые машинногенерируемые данные.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235640
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VovakaВ основном чистые машинногенерируемые данные.
В таком случае, как я уже сказал, CSV файлы с разделением по нужным критериям (судя по
первому посту это время) будут иметь приемлемые характеристики.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235641
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
lookatVovaka,

сейчас Hadapt
через год может быть Pivotal HD

Про Pivotal HD даже и не слышал, причем GP в сое время плотно смотрели, интересно ..
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235651
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovVovakaВ основном чистые машинногенерируемые данные.
В таком случае, как я уже сказал, CSV файлы с разделением по нужным критериям (судя по
первому посту это время) будут иметь приемлемые характеристики.


Поисковые запросы учитывают время и некий критерий/ID (10-15 типов), которые могут комбинироваться.
Ну а само хранение в файлах как-то не очень, кмк. Во первых хорошо бы их сжимать, во вторых кластер получается в сотни, а то и тысячи серверов и как этим всем рулить, не понятно. Первое, что пришло в голову, что-то типа hbase, но отзывы о надежности практически не оставляют шансов. Второе, все таки использовать mpp субд типа Вертики, это избавит от множества проблем, сильно сократит ресурсы на запуск и поддержку, но по финансам конечно не гуд.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235661
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovakaкластер получается в сотни, а то и тысячи серверов
Зачем кластер-то? Один сервер с хранилищем на 50 петабайт в котором лежат 10е9 файлов по
32 мегабайта каждый. Первичная фильтрация по времени не займёт и секунды, оставишиеся по
регламенту часы можно потратить на полное сканирование нужных файлов на предмет "критериев".
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235670
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovVovakaкластер получается в сотни, а то и тысячи серверов
Зачем кластер-то? Один сервер с хранилищем на 50 петабайт в котором лежат 10е9 файлов по
32 мегабайта каждый. Первичная фильтрация по времени не займёт и секунды, оставишиеся по
регламенту часы можно потратить на полное сканирование нужных файлов на предмет "критериев".


Ну у меня есть уже пример когда съезжала крыша у высоконадежного сетевого хранилища, так что не все данные с помощью RnD вендора удалось восстановить, поэтому MPP + sharing nothing для надежного и производительного ХД, это как-бы стало парадигмой для меня, но здесь не совсем конечно классика. Ну и про часы - это только для небольшой части запросов, остальные должны укладываться в секунды, причем одновременных может быть много. Но надо конечно подумать и в этом направлении безусловно.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235684
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovakaу меня есть уже пример когда съезжала крыша у высоконадежного сетевого
хранилища, так что не все данные с помощью RnD вендора удалось восстановить

А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235691
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovА бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...


NAS был на сотню ТБ, там было очень много различных баз и систем, не все бекапилось, что-то по странному стечению обстоятельств, бекапилось физически на этот же NAS.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235810
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovVovakaу меня есть уже пример когда съезжала крыша у высоконадежного сетевого
хранилища, так что не все данные с помощью RnD вендора удалось восстановить

А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...

А как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235821
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSDimitry Sibiryakovпропущено...

А бэкапы делать, конечно же, никто не побеспокоился. Ню-ню...

А как Вы себе бакуп петтабайтного хранилища и потом если что его восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные файловые системы или MPP сервера как раз и пытаются решать этот вопрос.Распределение и дублирование данных закрывает далеко не все вопросы.
Никто не отменял всякие Human Errors и баги в программном обеспечении.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235825
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его
восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные
файловые системы или MPP сервера как раз и пытаются решать этот вопрос.

Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а
сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню...

Маркетинг маркетингом, но физику-то забывать не надо.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235829
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Тут, кстати, поддержу Дмитрия - я бы без наличия бэкап вообще ни на какие SLA не подписывался.
Вон насколько больше Google в сервис Youtube вкладывает - и то периодически не получается проиграть видео в нужном мне разрешении.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235848
lookat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Dimitry SibiryakovASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его
восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные
файловые системы или MPP сервера как раз и пытаются решать этот вопрос.

Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а
сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню...

Маркетинг маркетингом, но физику-то забывать не надо.


Физика физикой, но и Tape Backup никто не отменял.
Тем более что, начиная с LTO-5, можно монтировать
на ленте свою файловую систему (LFTS называется).
Для Hadoop-Backup -- самое то.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235852
lookat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
lookat

<snip>
... (LFTS называется)...
</snip>



Пардон, LTFS
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235856
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovASCRUSА как Вы себе бакуп петтабайтного хранилища и потом если что его
восстановления представляете? Это нереально дорого и долго. Тут как раз распределенные
файловые системы или MPP сервера как раз и пытаются решать этот вопрос.

Ага, поставить рядом с петабайтным хранилищем второе такое же это нереально дорого, а
сделать полную копию того же объёма данных на Х других серверах - халява. Ню-ню...

Маркетинг маркетингом, но физику-то забывать не надо.

Сделать копию на дешевых серверах с локальными дисками, которая автоматически становится активной при выходе из строя ее источника по любому дешевле чем два дисковых хранилища и работает эта схема в 24 x7 без остановки кластера. В Vertica например при ksafe=2 в кластере из 5 серверов нужно убить 3 сервера в правильной последовательности, чтобы кластер перестал работать. Причем при смерти сервера достаточно поставить новый, чтобы он быстро реплицировал на себя данные взамен убранного с соседей и включился в работу ... все это не прерывая работы. У hadoop немного по другому и скорость восстановления ниже, но смысл похожий. Но по мне для темы данного топика hadoop не подходит - требуется хранить уже изначально структурированные данные и проводить поиск по заданным критериям. Тогда зачем там map и тем более reduce, вот если будет задача хранить для использования оригинальные форматы и файлы данных, тогда он получается интересен, но все равно в связке с каким нибудь MPP, на котором можно хранить индекс для быстрого поиска оригинальных файлов. Все конечно мое imho, на hadoop пока не приводилось проектов делать в продакшн.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235892
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ascrus, Hadoop вам не подойдет из-за требований к времени отклика, в Hadoop один подъем MapReduce Task'ов может занимать секунд 5-15, не говоря уже про связку с Pig или Hive у которых будет еще и свой overhead.
Хотя даже если бы он вам подошел, то стоимость была бы довольно большой. Прикиньте стоимость просто оборудования хотя бы под Hadoop кластер таких объемов, с учетом того, что места нужно будет раза в 3.5 больше (3 копии блока - это дефолт из-за низкой надежности таких кластеров, 0.5 это на ОС, темпы и прочую канитель).

На счет уложить все это на файловую систему - можно конечно попробовать, но во-первых SAN, который масштабируется до 50Пб тоже будет стоить не кисло, во-вторых вы будете замкнуты в рамках этой архитектуры в будущем, а я не думаю, что в один прекрасный день с этими данными не захотят сделать что-то поинтереснее, чем просто поиск по ключу. Т.е. разумнее сразу выбрать что-то погибче плоских файлов на файловой системе. А вот бэкап как раз таки не проблема, на ext3 вы такое количество файлов не положите, даже не пытайтесь, тут понадобиться нормальная коммерческая файловая система типа Veritas, а все эти открытые поделки можно смело отбросить - не тот калибр. Но в любом случае я бы так не делал.

Если хочется совсем дешево, то вариантов и правда не много, можно смотреть либо в сторону Impala, либо Hadapt. Но продуктам без году неделя.
У Терадаты для таких случаев есть Teradata 1650 Extreme Data Appliance. Но даже с очень хорошей скидкой и компрессией это будет стоить где-то в районе 2К за терабайт пользовательских данных, т.е. на таких объемах лямов 100. Дохера короче:)

Мне больше интересно а 50 Пб - это за какой период? Если три года, то это 46 Тб в день. Что нужно искать в этих 46 Тб, чтобы это укладывалось в 3 сек? Одну запись по первичному ключу?
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38235988
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexAscrus, Hadoop вам не подойдет из-за требований к времени отклика, в Hadoop один подъем MapReduce Task'ов может занимать секунд 5-15, не говоря уже про связку с Pig или Hive у которых будет еще и свой overhead.
Хотя даже если бы он вам подошел, то стоимость была бы довольно большой. Прикиньте стоимость просто оборудования хотя бы под Hadoop кластер таких объемов, с учетом того, что места нужно будет раза в 3.5 больше (3 копии блока - это дефолт из-за низкой надежности таких кластеров, 0.5 это на ОС, темпы и прочую канитель).

Почитал тут про реальные внедрения, как то грустно пока все

ApexНа счет уложить все это на файловую систему - можно конечно попробовать, но во-первых SAN, который масштабируется до 50Пб тоже будет стоить не кисло, во-вторых вы будете замкнуты в рамках этой архитектуры в будущем, а я не думаю, что в один прекрасный день с этими данными не захотят сделать что-то поинтереснее, чем просто поиск по ключу. Т.е. разумнее сразу выбрать что-то погибче плоских файлов на файловой системе.

Это очень правильная мысль, но пока мы просто рассуждаем в теории, аналитика может понадобиться, но уже в рамках другого, еще более масштабного проекта :)

ApexА вот бэкап как раз таки не проблема, на ext3 вы такое количество файлов не положите, даже не пытайтесь, тут понадобиться нормальная коммерческая файловая система типа Veritas, а все эти открытые поделки можно смело отбросить - не тот калибр. Но в любом случае я бы так не делал.

Ну насчет не проблема, я бы не согласился. Сколько он делаться будет и восстанавливаться? Как увязать восстановление и избежать простоя сервиса в разумных пределах на таких объемах? Проблем тут как раз достаточно на мой взгляд. Система должна обеспечивать постоянную доступность.

ApexЕсли хочется совсем дешево, то вариантов и правда не много, можно смотреть либо в сторону Impala, либо Hadapt. Но продуктам без году неделя.

Эт точно

ApexУ Терадаты для таких случаев есть Teradata 1650 Extreme Data Appliance. Но даже с очень хорошей скидкой и компрессией это будет стоить где-то в районе 2К за терабайт пользовательских данных, т.е. на таких объемах лямов 100. Дохера короче:)

Прикинул Вертику вместе с железом, примерно так же и выходит

ApexМне больше интересно а 50 Пб - это за какой период? Если три года, то это 46 Тб в день. Что нужно искать в этих 46 Тб, чтобы это укладывалось в 3 сек? Одну запись по первичному ключу?

Для одной записи норматив еще жестче - 1 сек :), это поиск в справочниках. А эта временная таблица для фактов, там как уж повезет, может и одна запись, может больше. Но это пока проект, готовят люди, не в полной мере себе представляющие получающиеся объемы данных, цифры возможно изменятся.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38236059
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VovkaСколько он делаться будет и восстанавливаться?
А это уже целиком зависит от политики бэкапирования. Инкрементальный бэкап восстановится быстро.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38236419
ДохтаР
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
По сабжу

1 .Любая БД которая поддерживает RO табличные пространства, с возможность отключения подключения
RO датафайлов на лету.

2. Любая ОС , которая поддерживает LVM, и перемещение данных на лету между томами , незаметно для БД, что бы наращивать обьемы новыми стораджами и перемещать данные между стораджами без остановок.

3. Любой сторадж, на котором с хоста можно поставить и снять RO флажок на датафайлах ( томах)
и раздать нескольким серверам.


Желающие могут озвучить возможных кандидатов по 3 пунктам.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38236428
ДохтаР
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
4. Мозги архитектора , спроеткировать хранение и загнать данные так ,
что бы система сама себе не наступала на RO хвосты ,
и обеспечивала достаточную производительность.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38238421
mijatovic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ИМХО попахивает альтернативными технологиями (NoSQL).

Надо смотреть конкретнее на требования к запросам - в зависимости от этого можно выбирать между key-value, (типа riak или Oracle NoSQL), либо колоночными (типа Hbase, Cassandra).
Кстати, если не сложно - не мог ли бы поделиться плохими отзывами об Hbase?
Как давно они были?
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38238542
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mijatovic,

пожалуйста: // http://habrahabr.ru/company/mailru/blog/167297/
отзыв "наисвежайший" от 28 января сего года и объемы данных там приличные :)
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38240406
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUSmijatovic,

пожалуйста: // http://habrahabr.ru/company/mailru/blog/167297/
отзыв "наисвежайший" от 28 января сего года и объемы данных там приличные :)

авторВсё то, что раньше программист делал долго и мучительно, то, что выполнялось на серверах по несколько недель, теперь программировалось за день и выполнялось в течение 15 – 10 минут.
хабр такой хабр.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38243286
Фотография vromanov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovaka,

Может мы вам что-то сделаем? Я тоже склоняюсь скорее к файлам ну или к комбинации файлы + что-то другое.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38243771
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
vromanovVovaka,

Может мы вам что-то сделаем? Я тоже склоняюсь скорее к файлам ну или к комбинации файлы + что-то другое.

Да пока предметно говорить не о чем, так, больше в образовательных целях вопрос изучаем.
...
Рейтинг: 0 / 0
ХД на 50 ПБ структурированных данных, выбор платформы
    #38246291
pzhivulin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Есть еще IBM Netezza High Capacity Appliance

http://www.ndm.net/datawarehouse/pdf/IBM+Netezza+High+Data+Sheet.pdf

8 рэков, 4.4 сжатых Пб (при среднем сжатии 4)

у вас в среднем во сколько данные сжимаются?
...
Рейтинг: 0 / 0
31 сообщений из 31, показаны все 2 страниц
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / ХД на 50 ПБ структурированных данных, выбор платформы
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]