powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / выбор БД для хранения 8Tb данных
80 сообщений из 80, показаны все 4 страниц
выбор БД для хранения 8Tb данных
    #37353986
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
приветствую!

подстакажите пожалуйста, какой движок способен справится с такой задачей:
одна таблица.
перманентное количество записей в базе ~8 миллиардов.
одна запись: string, datetime, blob (1024b). возможно добавится еще пара полей.
~85 миллионов инсертов и делитов в день.

необходимо осуществить поиск по первому и второму полю.

желаемый фидбэк <= 1cек

железо, предроложительно, ibm blade + какой-то дисковый массив (пока ничего не известно).

что можете порекомендовать ?

спасибо!
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37354097
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37354276
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Alexey K.,

смотря какая нагрузка пиковая. 85 млн в день ни о чем не говорит вообще. если нагрузка равномерна то сгодиться и mysql/myisam с файликами в ФС
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37354377
Если равномерно в течении суток, то это 1 МБ/сек. Тут что угодно подойдет.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37354473
SERG1257
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторкакой движок способен справится с такой задачей
Который знаешь
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355197
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
казалось что задача сложная, но видимо я безповоротно отстал от мэйнстрима :)

всем спасибо!
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355213
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.казалось что задача сложная, но видимо я безповоротно отстал от мэйнстрима :)

всем спасибо!я бы не рассляблялся
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355215
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
SergSuper,

подробнее можно ?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355274
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.,
да много это - 8 мдрд
например был в центральном филиале одного банка (не буду писать какого, но в топ 20 входит), там всего 1 млрд платежных документов, это за несколько лет
там конечно кроме документов много еще чего и логика сложная - но вот там чтобы оно быстро работало надо думать как писать, само оно не летает

другой момент - это Вы сейчас думаете что надо пару полей, вскоре выяснится что далеко не пару, что надо их как-то обрабатывать, какие-то проверки, синхронизации
ну не верю я что надо огромную базу держать из-за двух полей, не бывает такого

вобще странный Вы человек - просите подробностей, а сами никаких подробностей о поставленной задаче не дали
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355290
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
SergSuper,

все остальные поля хранятся в blob.
никаких сложных манипуляций не будет, только поиск по стрингу для заданного интервала дат.
все остальные расчеты на уровне аппликации.

в данный момент идет мучительный поиск дешевого/быстрого решения задачи.
пока что рабочая версия - написать узкозаточенную базу самим.
но меня терзают сомнения в успешности данного мероприятия :(

скверно то, что сдача через месяц а на данный момент результат NULL.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355302
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.все остальные поля хранятся в blob.
никаких сложных манипуляций не будет, только поиск по стрингу для заданного интервала дат.
все остальные расчеты на уровне аппликации.

в данный момент идет мучительный поиск дешевого/быстрого решения задачи.
пока что рабочая версия - написать узкозаточенную базу самим.
но меня терзают сомнения в успешности данного мероприятия :(Имхо, у грамотно разработанной структуры каталогов и системы именования файлов очень неплохие шансы на успех при очень скромных накладных расходах. Правда, могут быть потеряны СУБД-специфичные плюсы, такие как транзакции и т.п.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355434
Фотография vadiminfo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.все остальные поля хранятся в blob.

Это следует рассматривать как усугубляющее ситуацию во всех отношениях.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355764
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Имхо, у грамотно разработанной структуры каталогов и системы именования файлов очень неплохие шансы на успех при очень скромных накладных расходах. Правда, могут быть потеряны СУБД-специфичные плюсы, такие как транзакции и т.п.

подобное решение пришло в голову одним из первых.
чуть подробнее. первый ключ стринг это номер телефона.
количество абонентов (уникальных ключей)порядка 5 миллионов.
было решено сделать аналог digital trie на базе файловой системы.
однако тест показал, что fs дохнет при 3.2-3.5 миллионах вложеных папок и это без файлов.
пробовал по две цифры на каталог. итого при длине номера 10 знаков, имеем глубину 5.
увеличение вложенности ухудшает ситуацию.
в качестве подопытных пробовал ext2, reiserfs с дефолтными настройками.
так что этот вариант был помечен как нерабочий.

Это следует рассматривать как усугубляющее ситуацию во всех отношениях.
почему ?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355766
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.все остальные поля хранятся в blob.
<...>
все остальные расчеты на уровне аппликацииСоглашусь с vadiminfo .
Есть достаточно интересное интервью (на английском), в котором упоминается в том числе и этот момент: Objects in Space

Alexey K.пока что рабочая версия - написать узкозаточенную базу самим.
но меня терзают сомнения в успешности данного мероприятия :( Российский астроном, Олег Бартунов, предложил стране национальную СУБД
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355839
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.Имхо, у грамотно разработанной структуры каталогов и системы именования файлов очень неплохие шансы на успех при очень скромных накладных расходах. Правда, могут быть потеряны СУБД-специфичные плюсы, такие как транзакции и т.п.подобное решение пришло в голову одним из первых.
чуть подробнее. первый ключ стринг это номер телефона.
количество абонентов (уникальных ключей)порядка 5 миллионов.
было решено сделать аналог digital trie на базе файловой системы.
однако тест показал, что fs дохнет при 3.2-3.5 миллионах вложеных папок и это без файлов.
пробовал по две цифры на каталог. итого при длине номера 10 знаков, имеем глубину 5.
увеличение вложенности ухудшает ситуацию.
в качестве подопытных пробовал ext2, reiserfs с дефолтными настройками.
так что этот вариант был помечен как нерабочий.При таких вводных я бы предложил два уровня вложенности каталогов по три символа на каждый. Например, файл 1234567890.bin хранил бы как 123/456/1234567890.bin
В итоге всего два уровня вложенности каталогов и несколько сотен объектов на каждом уровне, что совсем не проблема почти для любой ФС.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37355964
Фотография vadiminfo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.почему ?
Неструктурированные данные.
Сами по себе СУБД реляционные, иерархические и др структурированные добились своих успехов именно за счет манипулирования структурированными данными. В реляционных - это SQL доступ. В плане призводительносити разныве средства от сбора статистики до средств повышения производмитенльности в основном на структукрированные данные расчитаны. Т.е. по сути на блобах преимущества от структурированности утрачиваются.
Раньше вообще БД делелили на фактографические и документные. Так вот у первых были СУБД, а вторых информационно поисковые системы (т.е. о управлении данными речи не шло), что отражало факт: сильная типизация дает преимущеста в управлении данными.

В одном проекте парни решили данные загонять в блобы не смотря на то, что те хорошо укладываались в таблицы. Их идея - съэкномить на числе строк. И тем самым сделать табицы меньше. Но трабла в том, что объем не уменьшился (у строк то еще "ширна": их стало меньше но очень толстых), а оценка БЛОБов более мутная, чем таблиц. Ф-ии же по вытаскиванию данных из БЛОБов просто выглядели удручающе. Им пришлось переделать.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356145
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кстати, сразу советую в список полей добавить:
версию протокола для блобов (ой как пригодится при расширении постановки),
версию самого объекта в блобе (для оптимистических блокировок и прочих радостей работы с блобами).


По базам:
У Oralce есть возможность хранить (небольшие) блобы в том же tablespace, что и сами строки. Это в некоторых случаях сильно уменьшает число физических чтений и seek-ов.
Есть ли у других - не в курсе.

И, какой характер и число запросов на поиск? Просто поиск одиночных записей по индексу? Или выборка по условиям - если да, то по каким?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356189
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
DPH3Кстати, сразу советую в список полей добавить:
версию протокола для блобов (ой как пригодится при расширении постановки),
версию самого объекта в блобе (для оптимистических блокировок и прочих радостей работы с блобами).
версия blob внутри. ничего изменяться не будет - тупо хранилище данных за три месяца.
новые данные добавляются по мере поступления.
старые(старше трех месяцев (конфигурабельно)) удаляются каким-нить тупым скриптом по cron раз в день (ночью).

DPH3И, какой характер и число запросов на поиск? Просто поиск одиночных записей по индексу? Или выборка по условиям - если да, то по каким?
вижу как
select * from table where number=n and date >= d1 and date < d2 limit 0, 20 (конфигурабельно)
больше ничего не нужно. ну может быть count еще по этому-же условию.

пока что максимально предполагается до 1000 одновременных запросов. это фантастический максимум.

конвертировать blob объект в таблицы нет смысла. на выходе он нужен именно в том формате, в котором положен в базу. тем более его внутренний формат предполагает наличие опциональных и/или повторяющихся полей и прочих радостей, которые, как понимаю, не очень хорошо ложатся в таблицу.

тоесть по сути это документная база. только документов очень много.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356200
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
servitЕсть достаточно интересное интервью
читаю, интересно. спасибо!

параллельно пустил тест на xfs с длиной имени поддиректории 3 символа.
24% из 5 миллионов за два часа. слабовато. всеже наверное тупиковый путь.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356237
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.параллельно пустил тестЧто за тест?

Кстати, еще одно направление, на которое, имхо, было бы полезно глянуть - key-value хранилища.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356277
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.версия blob внутри. ничего изменяться не будет - тупо хранилище данных за три месяца.

Ну, я бы все-таки версию протокола наверх вытащил. По личному опыту.
Ну не бывает такого, что бы формат не поменялся. К тому же при имеющихся условиях компактность хранения уже может начать играть свою роль - а это точно предполагает игру с форматами.

вижу как
select * from table where number=n and date >= d1 and date < d2 limit 0, 20 (конфигурабельно)
больше ничего не нужно. ну может быть count еще по этому-же условию.

Ага. Тогда подумай (и поиграй) с физическим размещением данных - как попало или, например, отсортировано по number.
Может оказаться заметно выгоднее на select (меньше физ. чтений, да и блокировок при удалении).

Кстати, доступность высокая нужна? И какой режим работы - 24*7 или все легче?
А то на выбор БД это тоже оказывает принципиальное значение.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356428
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
miksoftAlexey K.параллельно пустил тестЧто за тест?

Кстати, еще одно направление, на которое, имхо, было бы полезно глянуть - key-value хранилища.

самопальный тест создает дерево каталогов и потом в нем ищет.
попутно измеряю произсодительность.

а можно пример хранилища ? hypertable оно ?

DPH3Ну, я бы все-таки версию протокола наверх вытащил. По личному опыту.
Ну не бывает такого, что бы формат не поменялся. К тому же при имеющихся условиях компактность хранения уже может начать играть свою роль - а это точно предполагает игру с форматами.

даже если формат поменяется, то изменится только программа обработчик. базе должно быть всеравно.

DPH3Ага. Тогда подумай (и поиграй) с физическим размещением данных - как попало или, например, отсортировано по number.
Может оказаться заметно выгоднее на select (меньше физ. чтений, да и блокировок при удалении).

Кстати, доступность высокая нужна? И какой режим работы - 24*7 или все легче?
А то на выбор БД это тоже оказывает принципиальное значение.
в некотором роде они отсортированы по дате. люди звонят - данные поступают.
режим... добавление/удаление 24*7, чтение 8*5 (коллцентр)

нада опять-таки написать тест и проверить как тот-же постгрес справится с поиском.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356445
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.miksoftКстати, еще одно направление, на которое, имхо, было бы полезно глянуть - key-value хранилища.а можно пример хранилища ? hypertable оно ?См., например, тут - http://en.wikipedia.org/wiki/NoSQL_%28concept%29
Есть также подфорум NoSQL
У меня в этом направлении опыта нет, но эксперименты я бы начал с Memcachedb и Membase, т.к. они имеют отношение к memcached, которая является классикой жанра в Key-value cache in RAM.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356497
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
даже если формат поменяется, то изменится только программа обработчик. базе должно быть все равно.

Вот были у тебя данные в XML, а стали - в бинарном формате.
Так у тебя код обработки будет типа
if (rs.getInt("PROTOCOL").equals(XML_PROTOCOL))
return objectFromXML(rs.getBlob("DATA"))
else
return objectFromXML(rs.getBlob("DATA"))

Иначе тебе придется разбирать байтовый поток просто для анализа формата. Что явно лишние проблемы :)



в некотором роде они отсортированы по дате. люди звонят - данные поступают.
А выборки - по ключам в основном? Тогда такая сортировка может быть не слишком удачной.

нада опять-таки написать тест и проверить как тот-же постгрес справится с поиском.
А еще как он справиться с бэкапированием/восстановлением такого объема данных (или репликацией). А то тут стоит сразу думать о подобных проблемах.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356528
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
miksoftУ меня в этом направлении опыта нет, но эксперименты я бы начал с Memcachedb и Membase, т.к. они имеют отношение к memcached, которая является классикой жанра в Key-value cache in RAM.
благодарю, посмотрю что за звери.


DPH3Так у тебя код обработки будет типа
if (rs.getInt("PROTOCOL").equals(XML_PROTOCOL))
return objectFromXML(rs.getBlob("DATA"))
else
return objectFromXML(rs.getBlob("DATA"))

нет, в этом случае все будет крайне просто
Ipraser* parser = ParserFactory::Get(*data);
parser->GetField(...);
...
и вообще обработка данных проблему не представляет. все уже почти написано.
есть проблема храния и поиска.

DPH3А еще как он справиться с бэкапированием/восстановлением такого объема данных (или репликацией). А то тут стоит сразу думать о подобных проблемах.
raid5 не решит проблему ?
опять же проблема хранилища это не моя проблема :) (с надеждой в голосе...)
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356804
Фотография -2-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
miksoftУ меня в этом направлении опыта нет, но эксперименты я бы начал с Memcachedb и Membase, т.к. они имеют отношение к memcached, которая является классикой жанра в Key-value cache in RAM.И купить на савеловском пару планок по 8ТБ.

Alexey K.DPH3А еще как он справиться с бэкапированием/восстановлением такого объема данных (или репликацией). А то тут стоит сразу думать о подобных проблемах.
raid5 не решит проблему ?
опять же проблема хранилища это не моя проблема :) (с надеждой в голосе...)Наивно полагать, что сбойнет только шпиндель. Практика показывает, что подавляющее большинство потерь данных - инициативный админ/разработчки БД. А следом за сбоем единичного диска близко-близко - сбой контроллера, транспорта и софта.
Восстановление из обычного бакапа 8ТБ займет не одни сутки.

ps. 1024b называть bLob'ом - кощунство.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356806
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-2-miksoftУ меня в этом направлении опыта нет, но эксперименты я бы начал с Memcachedb и Membase, т.к. они имеют отношение к memcached, которая является классикой жанра в Key-value cache in RAM.И купить на савеловском пару планок по 8ТБ.Разве они требуют размещения всех данных в оперативной памяти одновременно?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356807
Фотография -2-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
miksoft-2-пропущено...
И купить на савеловском пару планок по 8ТБ.Разве они требуют размещения всех данных в оперативной памяти одновременно?Ну если предположить, что будет запрашиваться всегда один и тот же 1% данных, то 100ГБ оперативки подойдет.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356815
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
raid5 не решит проблему ?
опять же проблема хранилища это не моя проблема :) (с надеждой в голосе...)

Твоя, твоя :)
Все сильно зависит от требуемой надежности:
1) Время простоя в год - планируемых остановов
2) Время восстановления данных при ошибке (DBA/железо)
3) Сколько данных можно потерять при ошибках (ну, умер сервер - что делаем и сколько теряем).

Вроде бы, на твое счастье, предохраняться от случайного уничтожения серверной целиком тебе не нужно )
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356822
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-2-miksoftпропущено...
Разве они требуют размещения всех данных в оперативной памяти одновременно?Ну если предположить, что будет запрашиваться всегда один и тот же 1% данных, то 100ГБ оперативки подойдет.И чем тут предложенные мной системы отличаются от обычных СУБД или даже от кэша файловой системы?
Насколько я понимаю, тут как у всех - попали в кэш - хорошо, не попали - читаем с диска.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356828
locky
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-2-Восстановление из обычного бакапа 8ТБ займет не одни сутки.

На десктопном железе - что-то около 20 часов (если нигде не ошибся в запятых/порядках)
Если брать не десктопное железо, а нормальное.... ну, результат будет немного предсказуем.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356850
Фотография -2-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
miksoft-2-пропущено...
Ну если предположить, что будет запрашиваться всегда один и тот же 1% данных, то 100ГБ оперативки подойдет.И чем тут предложенные мной системы отличаются от обычных СУБД или даже от кэша файловой системы?
Насколько я понимаю, тут как у всех - попали в кэш - хорошо, не попали - читаем с диска.Присоединяюсь к вопросу. Чем тут мемкеши отличаются от обычных батареек субд.

locky-2-Восстановление из обычного бакапа 8ТБ займет не одни сутки.На десктопном железе - что-то около 20 часов (если нигде не ошибся в запятых/порядках)
Если брать не десктопное железо, а нормальное.... ну, результат будет немного предсказуем.Из расчета последовательного io 100МБ/сек? Результат зависит не столько от десктопности железа, сколько от технологий, обеспечивающих сохранность данных, где недопустимо останавливать систему на сутки ради холодного бакапа и терять неделю изменений в случае сбоя.

Да! не стоит переоценивать серверное железо - его продают зажравшиеся ублюдки, вложившие в немало бабла в "независимые" бенчмарки и отчеты и прогнозы гартнеров и идц.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356853
locky
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-2-Из расчета последовательного io 100МБ/сек? Результат зависит не столько от десктопности железа, сколько от технологий, обеспечивающих сохранность данных, где недопустимо останавливать систему на сутки ради холодного бакапа и терять неделю изменений в случае сбоя.

Да! не стоит переоценивать серверное железо - его продают зажравшиеся ублюдки, вложившие в немало бабла в "независимые" бенчмарки и отчеты и прогнозы гартнеров и идц.
120 на один девайс
скуль, кстати, не требует останова ради бэкапа, и не теряет неделю изменений в случае сбоя
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356858
Фотография -2-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
lockyскуль, кстати, не требует останова ради бэкапа, и не теряет неделю изменений в случае сбояЭто уже будет 8ТБ/(120МБ/сек) + накат журнала. Собственно, на наличие такой возможности у субд и обращалось внимание.

И. скуль - это собака, которая скулит. Если стыдно называть используемую БД по имени компании-разработчика, лучше промолчать.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356860
locky
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-2-lockyскуль, кстати, не требует останова ради бэкапа, и не теряет неделю изменений в случае сбояЭто уже будет 8ТБ/(120МБ/сек) + накат журнала. Собственно, на наличие такой возможности у субд и обращалось внимание.

И. скуль - это собака, которая скулит. Если стыдно называть используемую БД по имени компании-разработчика, лучше промолчать.
Это будет не 120+накатка журналов, а всё-таки меньше :) Скорее - накатка хвоста журналов.

и "скуль" - это быстро, коротко и понятно. Он врядли обижается, я так думаю.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37356863
Pavel2001
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.старые(старше трех месяцев (конфигурабельно)) удаляются каким-нить тупым скриптом по cron раз в день (ночью).


т.е. раз в день Вы будете удалять из таблицы данные старше 3 месяцев т.е. примерно 100 млн. записей из 8 млрд.
не могли бы Вы подобнее рассказать как Вы думаете это делать (что за тупой скрипт) и за сколько времени? интересно т.к. передо мной стоит похожая задача.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357102
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Pavel2001т.е. раз в день Вы будете удалять из таблицы данные старше 3 месяцев т.е. примерно 100 млн. записей из 8 млрд.
не могли бы Вы подобнее рассказать как Вы думаете это делать (что за тупой скрипт) и за сколько времени? интересно т.к. передо мной стоит похожая задача.
если sql, то первое что пришло в голову:
Код: plaintext
1.
2.
#/bin/sh
echo "delete * from table where date > (now() + 90)" | mysql base
оеально не пробовал, но мне кажется будет работать.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357406
Фотография -2-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.Pavel2001т.е. раз в день Вы будете удалять из таблицы данные старше 3 месяцев т.е. примерно 100 млн. записей из 8 млрд.
не могли бы Вы подобнее рассказать как Вы думаете это делать (что за тупой скрипт) и за сколько времени? интересно т.к. передо мной стоит похожая задача.если sql, то первое что пришло в голову:
Код: plaintext
1.
2.
#/bin/sh
echo "delete * from table where date > (now() + 90)" | mysql base
оеально (орально или анально?!) не пробовал, но мне кажется будет работать.вопрос наверное был пор то, что, при непрекращающихся вставках, делит будет идти неограниченно долго, каждый день.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357435
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
-2-оеально (орально или анально?!)
конечно же второй вариант, как и все что у нас делается :)

-2-вопрос наверное был пор то, что, при непрекращающихся вставках, делит будет идти неограниченно долго, каждый день.
неожиданный потенциальный трабл.
в моем случае можно тормозить вставку на момент удаления.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357526
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.-2-вопрос наверное был пор то, что, при непрекращающихся вставках, делит будет идти неограниченно долго, каждый день.неожиданный потенциальный трабл.
в моем случае можно тормозить вставку на момент удаления.Никакой это не трабл. Любая приличная СУБД вычислит now() - 90 один раз. Даже если нет - это несложно сделать за нее.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357540
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
miksoftЛюбая приличная СУБД вычислит now() - 90 один раз.

Но не любая СУБД осилит удалять записи из таблицы пока в неё данные вставляются. Судя по
реакции цифирыча - оракул точно не справится.
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357628
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.
Код: plaintext
1.
2.
#/bin/sh
echo "delete * from table where date > (now() + 90)" | mysql base
реально не пробовал, но мне кажется будет работать.

Хм. А transaction log или прочие его аналоги - не лопнут?
Вообще, удалять 100 млн. записей в одной транзакции - мне представляется не очень хорошей идеей, подводных камней может быть дофига...
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357653
Фотография vadiminfo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.Pavel2001т.е. раз в день Вы будете удалять из таблицы данные старше 3 месяцев т.е. примерно 100 млн. записей из 8 млрд.
не могли бы Вы подобнее рассказать как Вы думаете это делать (что за тупой скрипт) и за сколько времени? интересно т.к. передо мной стоит похожая задача.
если sql, то первое что пришло в голову:
Код: plaintext
1.
2.
#/bin/sh
echo "delete * from table where date > (now() + 90)" | mysql base
оеально не пробовал, но мне кажется будет работать.
Ну тут типа напрашивается секционирование по диапазону. Там поддерживается быстрая архивация (удаление). Быстрое в плане БД. Отключил файлы с данными секции за периоды старше - небольшие исправления в словаре БД и готово. Никакого delete не надо.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357654
pkarklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DPH3,

+1.

Код: plaintext
1.
2.
3.
WHILE  1 = 1  BEGIN
  DELETE TOP ( 10000 ) TableName WHERE...
  IF @@rowcount =  0  BREAK
END
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357745
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovmiksoftЛюбая приличная СУБД вычислит now() - 90 один раз.

Но не любая СУБД осилит удалять записи из таблицы пока в неё данные вставляются. Судя по
реакции цифирыча - оракул точно не справится.
В Oracle для этих целей Partitioning есть, который позволит DDL-командой грохнуть старые данные за день (месяц). А так да, delete вообще тяжелая для базы операция.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357814
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
miksoftЛюбая приличная СУБД вычислит now() - 90 один раз.
Ты только что смертельно оскорбил всё Interbase-семейство и вызвал гневную реакцию Сибирякова :)
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357855
Фотография -2-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
miksoftAlexey K.пропущено...
неожиданный потенциальный трабл.
в моем случае можно тормозить вставку на момент удаления.Никакой это не трабл. Любая приличная СУБД вычислит now() - 90 один раз. Даже если нет - это несложно сделать за нее.ждем тесткейз с удалением 100млн строк из 1млрд на любой приличной СУБД, то есть которая поддерживает ACID.

Хотя на фиг ACID - послабления:
- с учетом замечания автора про "можно тормозить вставку на момент удаления" - I-dml можно пренебречь, но остается I-select.
- на С тоже никто не упирал.
- A и D для задачи удаления старья не актуально, но невосстановимое повреждение БД при hardware error не допускается.

Пусть средняя строка будет 50 байт.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357905
AlexKB
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я так посчитал, примерно 1000 записей и удалений в секунду.
А разве это много?
У меня проект на СУБД Cache каждые 50 мсек выполняет массу обработок информации, при этом в базу при минимальной нагрузке выполняется примерно 3000 элементарных записей и на одну треть меньше удалений. При средней нагрузке количество записей в базу выполняется около 5000 и около 3500 удалений. При максимальной нагрузке количество элементарных записей в базу выполняется от 8000 до 10000.
Такое количество элементарных записей и удалений выполняется 20 раз в секунду непрерывно.
Правда информация поступает на обработку порционно, а соответственно и записи-удаления выполняются тоже порционно. Но после обработки очередной порции информации со всеми записями и удалениями еще остается гарантированного времени от 20 до 35 мсек, в зависимости от текущей нагрузки.
Так чтобы информация шла непрерывным потоком с темпом 1 мсек на каждую запись и на удаление я не проверял, не было необходимости.

В диспетчере задач при этом загрузка процессора показывается на уровне 3% - 6% - 10%

Так что если требования только по скорости записи и по скорости удаления, то можете смотреть и в сторону Cache.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37357925
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
softwarermiksoftЛюбая приличная СУБД вычислит now() - 90 один раз. Ты только что смертельно оскорбил всё Interbase-семейство и вызвал гневную реакцию Сибирякова :)Сорри, не хотел. А что, там это будет вычисляться отдельно для каждой записи?

-2-miksoftпропущено...
Никакой это не трабл. Любая приличная СУБД вычислит now() - 90 один раз. Даже если нет - это несложно сделать за нее.ждем тесткейз с удалением 100млн строк из 1млрд на любой приличной СУБД, то есть которая поддерживает ACID.Тесткейс сделать не могу, под рукой ничего малоценнного кроме Oracle XE сейчас нет, а в него такой объем не влезет.
Впрочем, насчет отсутствия трабла я был не совсем прав, в голове сработали MySQL-ные шаблоны, которые и привели к неправильному выводу о сути трабла.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358169
Pavel2001
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AlexKBкаждые 50 мсек количество записей в базу выполняется около 5000 и около 3500 удалений.

т.е. 100000 строк записывается и 70000 строк удаляется из одной таблицы за 1 секунду? А сколько всего записей в этой таблице?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358200
AlexKB
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Pavel2001,
Пишется не в таблицу а в глобалы (штук 20), в разные ветви, из них же и удаляется.
Записи элементарные, длины переменные, сразу скажу записей длиной 1кБ и более мало, но есть.
Используется режим прямого доступа к данным, типа: set ^Glob(Day,Time,Number)="сами данные через разделители полей". Если необходимо удалить группу записей за весь день то используется конструкция вида kill ^Glob(Day). Понятно, что процессы записи и удаления в обсуждаемом случае должны быть разделены.
Я не говорю, что только так нужно делать, я говорю, что для высоконагруженных систем архивации все таки стоит смотреть в сторону нереляционных движков.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358289
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
сегодня еще узнал одну маленькую деталь.

база должна быть халявной...
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358309
Фотография -2-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.база должна быть халявной...тогда все-таки файловая система.
Каждую секунду/минуту новый файл. Старые удалять.
Файлы доступны по http (apache) и гугл с яндексом в качестве индексатора.
Запросы все в гугл.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358313
NetObserver
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.база должна быть халявной...


Alexey K.железо, предроложительно, ibm blade + какой-то дисковый массив

Какие-то у Вас требования взаимо исключающие :)
Либо есть бабло на проект, либо на коленке...
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358322
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
-2-,

гениально

NetObserverAlexey K.железо, предроложительно , ibm blade + какой-то дисковый массив

Какие-то у Вас требования взаимо исключающие :)
Либо есть бабло на проект, либо на коленке...
ну просто у нас тут мода такая пошла на blad-ы :)
когда я подключился к проекту, там была монго и шесть машин с 32гига на борту.

наконец-то я дождался теста на файловую систему:
возможно не все потеряно. так сказать для первой версии базы.

mount -t xfs -o noatime,nodiratime,nobarrier,logbufs=8 /dev/sdb2 data
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
Creator
5000000 records will be processed
Destination dir: /home/alex/data
number len: 10
sub len: 3
0%....|....10%....|....20%....|....30%....|....40%....|....50%....|....60%....|....70%....|....80%....|....90%....|....100%
total 32160754 ms
average 0.155 rec/ms
success 99.947%
  250000 #################################################  6.887ms/rec
  500000 ################################################## 6.906ms/rec
  750000 #################################################  6.860ms/rec
 1000000 ###############################################    6.598ms/rec
 1250000 ###############################################    6.505ms/rec
 1500000 ##############################################     6.365ms/rec
 1750000 ##############################################     6.411ms/rec
 2000000 #############################################      6.270ms/rec
 2250000 #############################################      6.304ms/rec
 2500000 #############################################      6.308ms/rec
 2750000 #############################################      6.287ms/rec
 3000000 #############################################      6.268ms/rec
 3250000 ##############################################     6.359ms/rec
 3500000 #############################################      6.255ms/rec
 3750000 #############################################      6.241ms/rec
 4000000 #############################################      6.259ms/rec
 4250000 #############################################      6.314ms/rec
 4500000 #############################################      6.337ms/rec
 4750000 ##############################################     6.391ms/rec
 5000000 ###############################################    6.520ms/rec

Finder
5000000 records will be processed
Destination dir: /home/alex/data
number len: 10
sub len: 3
0%....|....10%....|....20%....|....30%....|....40%....|....50%....|....60%....|....70%....|....80%....|....90%....|....100%
total 22401 ms
average 223.204 rec/ms
success 100.000%
  250000 #################################################  0.005ms/rec
  500000 ################################################## 0.005ms/rec
  750000 #################################################  0.005ms/rec
 1000000 ################################################   0.005ms/rec
 1250000 ###############################################    0.005ms/rec
 1500000 ###############################################    0.005ms/rec
 1750000 ###############################################    0.005ms/rec
 2000000 ##############################################     0.005ms/rec
 2250000 #############################################      0.005ms/rec
 2500000 #############################################      0.005ms/rec
 2750000 #############################################      0.005ms/rec
 3000000 ############################################       0.004ms/rec
 3250000 ###########################################        0.004ms/rec
 3500000 ###########################################        0.004ms/rec
 3750000 ##########################################         0.004ms/rec
 4000000 ##########################################         0.004ms/rec
 4250000 #########################################          0.004ms/rec
 4500000 ########################################           0.004ms/rec
 4750000 #######################################            0.004ms/rec
 5000000 #######################################            0.004ms/rec
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358352
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.,

Судя по величине в 6-7 мс при создании файлов, могу предположить, что дисковый контроллер без BBU и/или с выключенным кэшем на запись. Если это изменить, то это время может быть заметно улучшено.

По какой системе на каталоги били?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358363
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
miksoft,

это самый обычный sata диск без каких бы то нибыла настроек. ос debian 64 на виртуальной машине. хост не знаю. может blade.
по причине мелкого диска данных там нет, только пустые директории.
создаю дерево вида:
/home/alex/data/123/456/789/0
/home/alex/data/546/753/285/7
и тд.
потом проверяю наличие этой директории (как бы чтение).

реального хранилища нет. и неизвестно когда будет и будет ли вообще.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358398
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.,

А смысл тогда от такого теста?
Или вы собираетесь боевую базу на одиночном sata-диске запускать? Таких, кстати, требуемого объема не существует.

Для файловой системы учтите еще такой момент - в большинстве файловых систем место под файл выделяется достаточно крупными блоками (кластерами) размером в единицы или десятки килобайт. Таким образом реально занятое место может быть в разы больше суммарного размера файлов. Проверьте этот момент для вашей файловой системы.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358494
Yuri Pudovchenko
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Alexey K.приветствую!

подстакажите пожалуйста, какой движок способен справится с такой задачей:
одна таблица.
перманентное количество записей в базе ~8 миллиардов.
одна запись: string, datetime, blob (1024b). возможно добавится еще пара полей.
~85 миллионов инсертов и делитов в день.

необходимо осуществить поиск по первому и второму полю.

желаемый фидбэк <= 1cек

железо, предроложительно, ibm blade + какой-то дисковый массив (пока ничего не известно).

что можете порекомендовать ?

спасибо!

Алексей,

Есть такая ссылочка:
http://www.exastack.ru/portal/page?_pageid=113,263175&_dad=portal&_schema=PORTAL

Если у тебя есть готовое приложение, то можешь принести его и потестировать его на Экзадате.
Плюсы:
- это интересно
- это полезно персонально для тебя (практический опыт работы на Экзадате - это плюс в резюме)
- это бесплатно (еще и кофеем напоим)
- квалифицированные специалисты подумают как твое приложение улучшить и дадут полезные советы. это тоже бесплатно.
- это даст точку отсчета, с которой можно сравнивать другие платформы.

Удачи !
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358578
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Yuri Pudovchenko,

спасибо за приглашение, но лететь к вам далеко.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358579
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
miksoftА смысл тогда от такого теста?
даже создание пустых директорий занимает, как оказалось, достаточно приличное время.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37358592
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.miksoftА смысл тогда от такого теста?
даже создание пустых директорий занимает, как оказалось, достаточно приличное время.Сильно подозреваю, что реально это время тратится не на создание директорий как таковых, а на перемещение головок диска и ожидание нужного сектора на диске, по времени очень похоже. Если оно действительно так, то оно будет резко улучшено применением дискового контроллера с кэшем на запись и BBU.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37359085
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-2-Alexey K.база должна быть халявной...тогда все-таки файловая система.
Каждую секунду/минуту новый файл. Старые удалять.
Файлы доступны по http (apache) и гугл с яндексом в качестве индексатора.
Запросы все в гугл.


Хм. И как для файловой системы решать задачи бэкапирования и HA?
Эта задача будет и посложней, нежели заставить Postgress работать с достаточной производительностью.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37359094
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey K.сегодня еще узнал одну маленькую деталь.

база должна быть халявной...


А насколько халявной? Совсем или есть лимит по цене?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37359704
чччД
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
softwarermiksoftЛюбая приличная СУБД вычислит now() - 90 один раз.
Ты только что смертельно оскорбил всё Interbase-семейство и вызвал гневную реакцию Сибирякова :)
Ты завис в 87-м.
Семейство давно уже не "всё".
В FB разные группы функций для получения времени, одни возвращают текущий момент, другие - начало выполнения операции.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37359753
Alexey K.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
DPH3А насколько халявной? Совсем или есть лимит по цене?
без поняттия :)
наверное совсем. работа программеров не считается
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37360009
Фотография -2-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DPH3-2-пропущено...
тогда все-таки файловая система.
Каждую секунду/минуту новый файл. Старые удалять.
Файлы доступны по http (apache) и гугл с яндексом в качестве индексатора.
Запросы все в гугл.Хм. И как для файловой системы решать задачи бэкапирования и HA?Гугл, Результаты поиска, Сохраненная копия...
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37364429
AAron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DPH3-2-пропущено...
тогда все-таки файловая система.
Каждую секунду/минуту новый файл. Старые удалять.
Файлы доступны по http (apache) и гугл с яндексом в качестве индексатора.
Запросы все в гугл.


Хм. И как для файловой системы решать задачи бэкапирования и HA?
Эта задача будет и посложней, нежели заставить Postgress работать с достаточной производительностью.
Да в принципе, не сложно.
Ставишь второй дисковый массив и все.

Вообще, ИМХО, вся задача просится в файловую систему, на какой-нить zfs. При этом важно использовать хороший дисковый массив (SAN), поверх которого можно поставить хороший NAS. Вкупе, такая парочка способна решить проблемы автора. Для HA - использовать дублирование.

Кстати, есть интересное решение Oracle SUN ZFS Storage. Рекомендую посмотреть. Не очень дорогое, но с очень вкусными характеристиками.

В общем, все сильно зависит от бюджета автора.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37364572
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AAron,

Хм. И как второй дисковый массив поможет при HA?

Как обеспечить дублирование данных на уровне ФС, как обеспечить heartbeat, как сделать переключение, как сделать обратную синхронизацию?
Я верю, что есть соответствующие ФС - но их тогда надо бы явно указать. Сказать просто "использовать ФС" - это как "использовать БД" - ни о чем.

Есть опыт использования ZFS для построения систем высокой доступности?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37370734
Victor Metelitsa
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Из fs интересна btrfs,
А вообще, задача напомнила мне о существовании http://www.objectivity.com/
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37371336
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Victor MetelitsaИз fs интересна btrfs,
А вообще, задача напомнила мне о существовании http://www.objectivity.com/

Хм. Что-то у них на сайте сплошной PR, про принципы работы - тишина....
Может, есть какая-то осмысленная ссылка, что и как они делают?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37371347
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Еще на ту же тему - LevelDB
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37371791
Victor Metelitsa
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DPH3Victor MetelitsaИз fs интересна btrfs,
А вообще, задача напомнила мне о существовании http://www.objectivity.com/

Хм. Что-то у них на сайте сплошной PR, про принципы работы - тишина....
Может, есть какая-то осмысленная ссылка, что и как они делают?

http://www.objectivity.com/pages/objectivity/advantages.asp
...
No O-R Mapping Layer: Significantly reduce development time, maintenance and administrative overhead, and completely eliminate all application errors associated with known o/r mapping issues.
...
No Database Server: Enabling maximum performance with minimal physical constraints, Objectivity/DB does not rely on a database server like many traditional database technologies, but instead consists of a small application library linked into the application, a lock-server process and a page-server process. The lock-server and the page-server are lightweight applications that manage locks and data pages for all of the Objectivity/DB applications accessing a federated database.
...

В старые времена пробная версия с VisualWorks шла (т.е. Smalltalk тоже поддерживался), так что я мог почитать поподробнее.
Если вы помните, в древнем виртовском Паскале было понятие File of record (файл как бы состоял не из байтов, а из записей фиксированной длины) и было дальнейшее этой идеи в TurboPascal под названием BTree Filer (добавились индексы). Как я понимаю (возможно, неправильно), в основе тут лежит что-то вроде этого, хотя на другом уровне, и сверху куча всего навёрнута. Вы всегда можете запросить пробную версию и попробовать попрограммировать лично.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37371815
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Victor MetelitsaNo Database Server: Enabling maximum performance with minimal physical constraints,
Objectivity/DB does not rely on a database server like many traditional database
technologies, but instead consists of a small application library linked into the
application, a lock-server process and a page-server process. The lock-server and the
page-server are lightweight applications that manage locks and data pages for all of the
Objectivity/DB applications accessing a federated database.
Раскрученный FVMas.
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37371821
Dimitry SibiryakovVictor MetelitsaNo Database Server: Enabling maximum performance with minimal physical constraints,
Objectivity/DB does not rely on a database server like many traditional database
technologies, but instead consists of a small application library linked into the
application, a lock-server process and a page-server process. The lock-server and the
page-server are lightweight applications that manage locks and data pages for all of the
Objectivity/DB applications accessing a federated database.
Раскрученный FVMas.

А FVMas и лепесток или стебелек это одно и тоже?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37371937
Victor Metelitsa
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Пожалуй, я-таки проголосовал бы за DB2 Express-C (не знаю насчёт PostgreSQL, слышал только нехорошее слово "vacuum"). Надо бы только оценить, важно ли ограничение в 2 гига ОЗУ, что зависит от объёма запрашиваемых данных и случайности запросов этих данных. Для быстрого удаления имеет смысл применять "партишионирование для бедных" - т.е. разбить данные на несколько таблиц и поверх них сделать view с union all; drop'ать/пересоздавать таблицы и view, когда данные в таблицах устарели.

(Интересно, что лицензия запрещает использовать MDC (многомерные кластера) и компрессию на Express-C, но физически они, вроде бы, не были отключены. А это чрезвычайно удобные и полезные штуки).

Насколько я вижу по синтаксису CREATE TABLE в DB2 9.7 (сам не пробовал создавать), таблица может принадлежать нескольким tablespace (раньше такого не было). Таким образом, имеет смысл создать по одному tablespace на каждый диск и бекапить по-тэйблспэйсно, а таблицы создавать на всех "данновых" tablespace сразу. Размер страницы имеет смысл выбрать в 32K (как известно, основное время тратится на позиционирование, а не на считывание); если оставить дефолтный, без толку пропадёт море места. Так называемый blob определить как VARCHAR(1024) FOR BIT DATA.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37371952
Victor MetelitsaНасколько я вижу по синтаксису CREATE TABLE в DB2 9.7 (сам не пробовал создавать), таблица может принадлежать нескольким tablespace (раньше такого не было). Таким образом, имеет смысл создать по одному tablespace на каждый диск и бекапить по-тэйблспэйсно, а таблицы создавать на всех "данновых" tablespace сразу.
Это что за чудо такое?
Чтобы тейблспейс состоял из нескольких файлов, такое понятно. Но чтобы таблица лежала сразу на нескольких тейблспейсах, вы не путаете это с париционированием?
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37372051
Victor Metelitsa
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
http://publib.boulder.ibm.com/infocenter/db2luw/v9r7/index.jsp?topic=/com.ibm.db2.luw.sql.ref.doc/doc/r0000927.html
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
tablespace-clauses

|--+---------------------------------------+--●----------------->
   |     .-,---------------.               |      
   |     V                 |  .-CYCLE----. |      
   '-IN----tablespace-name-+--+----------+-'      
                              '-NO CYCLE-'        

>--+--------------------------------+--------------------------->
   |                           (11) |   
   '-INDEX IN--tablespace-name------'   

>--+------------------------------+-----------------------------|
   |          .-,---------------. |   
   |          V                 | |   
   '-LONG IN----tablespace-name-+-'  
Поскольку у меня нет реальных шансов продвинуться в реальном использовании DB2 дальше 9.1, то неохота разбираться, как это работает и работает ли в Express-C. Просто случайно увидел и был сильно удивлён.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37398580
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не претендую на "серебрянную пулю", но почему просто не попробовать несколько вариантов?

Например, на MSSQL 2008R2 это будет выглядеть примерно так: сжатая секционированная таблица с кластерным индексом по полям поиска.

В случае удаления "100 млн" - просто выкидываем секцию из таблицы.
Это происходит на уровне метаданных, и выполняется микросекунды.

В одном из моих проектов была таблица, содержащая примерно 5 млрд записей (подневные остатки крупной торговой сети), система очень хорошо себя чувствовала на машине, которая даже не поддерживала х64 (сервер был родом из начала века). Дисковая подсистема была приблизительно того же уровня. Правда, там не было блобов, но тут только тест все покажет.
...
Рейтинг: 0 / 0
выбор БД для хранения 8Tb данных
    #37523422
Андрей Васильевич
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да. DB2 очень хорошая СУБД. Я знаю много больших баз данных на ней. И быстро и надежно. Не встречал проблем с ней. CACHE тоже может подойти. Но я был свидетелем когда при внезапном отключении электричества база CACHE испортилась(база теневого копирования), а вот с DB2 таких случаев не припомню.
...
Рейтинг: 0 / 0
80 сообщений из 80, показаны все 4 страниц
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / выбор БД для хранения 8Tb данных
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]