Посоветуйте БД для проекта / Сравнение СУБД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Посоветуйте БД для проекта

21 сообщений из 21, страница 1 из 1

Посоветуйте БД для проекта

#38575649

Druh

Гость

Приветствую!

Я программист-алгоритмист, имею поверхностное представление о системах хранения данных. Теперь столкнулся с необходимостью хранить некоторую информацию персистентно, но не могу найти подходящего для этого решения. Я рассчитываю получить указание на то, какие програмные продукты можно применить для моего случая.

Итак, информация, которую я хочу хранить выглядит так: набор таблиц, где таблица - это набор строк. Каждая строка в таблице - набор полей (числа, string-и). Каждая строка таблицы адресуется некоторым id (целое). Каждое поле адресуется его именем (string). Требований к строгой схеме - фиксированному набору полей в каждой строке нет.
Модель работы с данными такова: в online мы ничего не читаем из таблиц, а только пишем туда . Примерный набор операций:
а) table1[35]["field1"].set("blabla"); // изменение значения поля
b) table1[35]["field2"].increment(); // инкремент поля-счётчика
c) table1[35].delete(); // удаление строки
Чтение из таблиц происходит редко (раз в день или реже), но большими порциями - последовательное вычитывание всей таблицы есть ок.
Ну т.е. это сбор информации в онлайне с последующим большим анализом.

Цель, требования - минимизация потребления памяти в онлайн, эффективность по времени .
Требований к кластеризации пока нет - для наших нагрузок должно хватать одной машинки.

Как это можно было бы реализовать самостоятельно:
- каждая таблица хранится сортированной по id в отдельном файле - это снапшот
- каждая операция в онлайн записывается в инкрементальный xlog на диске
- ночью это всё компактизуется: xlog сортируется внешней сортировкой, накатывается на снапшот, получаем новый снапшот
- для анализа зачитываем файл с таблицей из снапшота последовательно

Делать самому всё это - ой как нехочется. Посоветуйте куда посмотреть: продукты и правильные слова, - как такой паттерн работы называется по-английски. Я вот понял, что похоже это на Data Warehouse, но чего-то легковесного, как я описал, в этой области не нашёл.

...

Рейтинг:

0 / 0

28.02.2014, 19:40

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38575656

SERG1257

Участник

Сообщения: 2 932

Рейтинг: 0 / 0

Druh похоже это на Data WarehouseНисколько не похоже.
Если вам нужно что то легковесное смотрите в сторону SQLite

...

Рейтинг:

0 / 0

28.02.2014, 19:55

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38575660

Druh

Гость

SERG1257,
SQLite умеет не тратить время на запись изменения и производить изменения порциями отложенно, как я описал? Меня не интересует относительная легковесность как таковая. Меня интересует легковесность в том множестве СУБД, которые удовлетворяют описанным мною требованиям. В идеале - если они будут уметь делать только то, что я описал и (как следствие) делать это наиболее эффективно.

...

Рейтинг:

0 / 0

28.02.2014, 20:01

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38575663

SERG1257

Участник

Сообщения: 2 932

Рейтинг: 0 / 0

Druh удовлетворяют описанным мною требованиям. В идеале - если они будут уметь делать только то, что я описал и (как следствие) делать это наиболее эффективно.Ваши требования нетипичны для РСУБД. Боюсь под ваши строгие критерии подойдет только ваша собственная разработка.

...

Рейтинг:

0 / 0

28.02.2014, 20:18

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38575668

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

DruhПримерный набор операций:
а) table1[35]["field1"].set("blabla"); // изменение значения поля
b) table1[35]["field2"].increment(); // инкремент поля-счётчика
c) table1[35].delete(); // удаление строки
I smell FVMas!
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

28.02.2014, 20:35

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38575692

SergSuper

Участник

Откуда: SPb

Сообщения: 5 995

Рейтинг: 0 / 0

Druh,

Не пожалейте неделю, купите какую нибудь книжку по базам данных, возможно измените свои подходы. Пока Вы рискуете наломать дров

...

Рейтинг:

0 / 0

28.02.2014, 21:20

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38575739

rockclimber

Участник

Откуда: у меня в голове опилки?

Сообщения: 9 106

Рейтинг: 0 / 0

SERG1257Druhудовлетворяют описанным мною требованиям. В идеале - если они будут уметь делать только то, что я описал и (как следствие) делать это наиболее эффективно.Ваши требования нетипичны для РСУБД. Боюсь под ваши строгие критерии подойдет только ваша собственная разработка.Странно, а я понял описание задачи наоборот. Имхо, ему любая РСУБД подойдет. Читать и писать они все могут, нагрузки небольшие...

...

Рейтинг:

0 / 0

28.02.2014, 22:39

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38576039

DPH3

Участник

Сообщения: 524

Рейтинг: 0 / 0

Druh,

Какой объем данных записывается в сутки? Должно ли решение быть "встраиваемым" в продукт или можно просто поставить на какой-то сервер и запускать там?
Насколько велики требования к надежности хранения? Какие требования к надежности всей системы (в процессе записи, например, сбои больше секунды уже очень дорого стоят или можно легко и минут на 15 раз в неделю притормозить) и т.п.

...

Рейтинг:

0 / 0

01.03.2014, 15:42

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38576192

Druh

Гость

DPH3,

Собственно, отталкиваясь от того алгоритма реализации, который я описал, я ожидаю производительности со скоростью записи жёсткого диска. Никакой речи о задержках на секунду не идёт. Я рассчитываю очень примерно на 100 записей в секунду. При этом общее количество сущностей порядка 100млн. Встраиваемое решение или серверное - не имеет значения. Запись на таких скоростях не должна убираться в throuhput ни сетевой, ни дисковой подсистем. Именно это я имел ввиду, когда говорил, что одной машинки хватит, - не что данных мало, а что есть алгоритм эффективной реализации.

Я ищу любое решение (или хотя бы ключевые слова) именно для этого паттерна (быстрая запись и неторопливое bulk-чтение целых таблиц изредка). Похожий паттерн имеет задача быстрой записи логов, где лог-записи (полу-)структурированы, с последующей отдельной обработкой (вроде индексации) и анализом.

Про РСУБД (тут это упоминали) я не говорю (если Р означает реляционная). Ни целостность, ни нормализованность, ни схема, ни транзакционность, как можно понять, мне не принципиальны. Тут как минимум NoSQL, но все они всё-таки поддерживают текущее состояние БД онлайн, а мне нежелательно тратить на это ни память, ни время.

Вобщем, я прихожу к тому, что ничего готового я, видимо, не найду. Слишком специфичная и простая на первый взгляд задача. Придётся либо писать самому, либо взять за основу что-нибудь из тройки MySQL, MongoDB, Hadoop и надеятся на то, что оно сдюжит.

...

Рейтинг:

0 / 0

01.03.2014, 23:10

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38576205

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

Druhя ожидаю производительности со скоростью записи жёсткого диска. Никакой речи о
задержках на секунду не идёт. Я рассчитываю очень примерно на 100 записей в секунду.
Обычный десктопный SATAII винт обеспечивает запись со скорость 100мб/с. Чтобы он смог
писать 100 записей в секунду, каждая запись должна быть размером в мегабайт.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

01.03.2014, 23:33

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38576217

kdv

Участник

Откуда: iBase.ru

Сообщения: 30 139

Рейтинг: 0 / 0

Druhза основу что-нибудь из тройки MySQL, MongoDB, Hadoop и надеятся на то, что оно сдюжит.
непонятно, при чем тут MySQL, или наоборот, при чем тут MongoDB, Hadoop.
про "сдюжит" вам уже сказали - 100 записей в секунду это ерунда какая-то. Давно бы уже сотворили прототип на MySQL. В таких делах нужно поменьше теоретизировать.

DruhЯ программист-алгоритмист, имею поверхностное представление о системах хранения данных.
вот это уже плохо, так что придется осваивать. На MySQL и потренируйтесь.

...

Рейтинг:

0 / 0

01.03.2014, 23:58

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38576362

Basil A. Sidorov

Участник

Сообщения: 11 633

Рейтинг: 0 / 0

Dimitry SibiryakovОбычный десктопный SATAII винт обеспечивает запись со скорость 100мб/с. Чтобы он смог
писать 100 записей в секунду, каждая запись должна быть размером в мегабайт.Нет прямой связи между скоростью последовательной записи и максимальной частотой операций записи.
Но, таки, да: предел одиночного диска - 70-150 IOPS.

...

Рейтинг:

0 / 0

02.03.2014, 16:49

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38576374

kdv

Участник

Откуда: iBase.ru

Сообщения: 30 139

Рейтинг: 0 / 0

Basil A. SidorovНо, таки, да: предел одиночного диска - 70-150 IOPS.
тут надо отметить, что речь про ширпотребные SATA II диски, по 100 баксов за штуку.
Насчет IOPS - сейчас это легко решается экстенсивным методом, путем покупки SSD - там даже у ширпотреба десятки тысяч IOPS.

гораздо полезнее уметь пользоваться калькулятором.

...

Рейтинг:

0 / 0

02.03.2014, 17:48

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38576399

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

Basil A. SidorovНет прямой связи между скоростью последовательной записи и
максимальной частотой операций записи.
Задача аффтара "только писать и почти никогда не читать" отлично укладывается в плоские
файлы и последовательную запись.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

02.03.2014, 19:39

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38577171

DPH3

Участник

Сообщения: 524

Рейтинг: 0 / 0

DruhСобственно, отталкиваясь от того алгоритма реализации, который я описал, я ожидаю производительности со скоростью записи жёсткого диска. Никакой речи о задержках на секунду не идёт. Я рассчитываю очень примерно на 100 записей в секунду. При этом общее количество сущностей порядка 100млн. Встраиваемое решение или серверное - не имеет значения. Запись на таких скоростях не должна убираться в throuhput ни сетевой, ни дисковой подсистем. Именно это я имел ввиду, когда говорил, что одной машинки хватит, - не что данных мало, а что есть алгоритм эффективной реализации.
...
Про РСУБД (тут это упоминали) я не говорю (если Р означает реляционная). Ни целостность, ни нормализованность, ни схема, ни транзакционность, как можно понять, мне не принципиальны. Тут как минимум NoSQL, но все они всё-таки поддерживают текущее состояние БД онлайн, а мне нежелательно тратить на это ни память, ни время.

Ну, указывать алгоритм до формулирования требований - это плохой путь )
Сначала надо понять, а какие реальные граничные условия - а уже потом искать подходящий алгоритм решения.
Например, 100 записей в секунду не проблема даже для моего ноутбука (для разумных записей) для любой СУБД.

Сложности начинаются при:
1) Данные нельзя терять никогда. Нужно решение, которое работает при любых сбоях жесткого диска и вообще железа/ОС.
2) Нужно писать много данных, причем на каждый чих нужен seek и нет денег на нормальное железо.
3) По данным нужен хитрый поиск
4) ...

Например, хочу заметить, что у заметной части NoSQL большие проблемы с надежностью, а с диском они работают в лучшем случае через ОС. "Взрослые" РСУБД очень неплохо умеют работать с диском на достаточно низком уровне RAW.

DruhЯ ищу любое решение (или хотя бы ключевые слова) именно для этого паттерна (быстрая запись и неторопливое bulk-чтение целых таблиц изредка). Похожий паттерн имеет задача быстрой записи логов, где лог-записи (полу-)структурированы, с последующей отдельной обработкой (вроде индексации) и анализом.

Вобщем, я прихожу к тому, что ничего готового я, видимо, не найду. Слишком специфичная и простая на первый взгляд задача. Придётся либо писать самому, либо взять за основу что-нибудь из тройки MySQL, MongoDB, Hadoop и надеятся на то, что оно сдюжит.

Вообще, если особая надежность не важна, то подойдет любой нормальный логгер (типа log4j). Писать в разные файлы подряд, потом каким-нибудь awk вычитывать, сортировать как удобно и скармливать анализатору. Производительности хватит с запасом, скрипт для сортировки будет в несколько строчек, писать быстрее, чем прочитать обсуждение на sql.ru )

...

Рейтинг:

0 / 0

03.03.2014, 18:47

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38577480

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

Dimitry SibiryakovBasil A. SidorovНет прямой связи между скоростью последовательной записи и
максимальной частотой операций записи.
Задача аффтара "только писать и почти никогда не читать" отлично укладывается в плоские
файлы и последовательную запись.

подойдет любая база. Таблицы без индексов. Запись будет почти как в плоский файл.

...

Рейтинг:

0 / 0

04.03.2014, 10:45

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38578698

kdv

Участник

Откуда: iBase.ru

Сообщения: 30 139

Рейтинг: 0 / 0

DPH3 "Взрослые" РСУБД очень неплохо умеют работать с диском на достаточно низком уровне RAW.
насколько я помню, уже давно было признано, что RAW не дает значимого преимущества. И уж тем более не обеспечивает "большей надежности".
Сбой физического диска это сбой, и похер, какая сверху него прослойка.

...

Рейтинг:

0 / 0

05.03.2014, 11:42

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38578898

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

1. Задача описана очень коряво. Выдумывать "что имел в виду аффтор" можно сколько угодно.
2. Судя по всему. есть проблемы в постановке и архитектуре БД

- каждая таблица хранится сортированной по id в отдельном файле - это снапшот
- каждая операция в онлайн записывается в инкрементальный xlog на диске
- ночью это всё компактизуется: xlog сортируется внешней сортировкой, накатывается на снапшот, получаем новый снапшот
- для анализа зачитываем файл с таблицей из снапшота последовательно

Нормальный подход.
1. Нечто похожее используется в складском софте для управления запасами на складе. Только там хранится последнее состояния + логи как оно к нему пришло. Соответственно всегда можно восстановить запасы на конкретную дату.
2. В Oracle есть Mat View. Что позволяет параллельно вести "таблицы" + хранить снимки. Используется/использовалось в BI /Business Analytics/ для drill down отчетов. С ходу, я бы смотрел возможность под задачу задействовать их.

Вообще, мешанина понятий: лог / таблица, всегда пишем / редко читаем. Какой-то сумбур. Обычная задача для кодинга и реализации нормального кеша. Ну и реализуйте нормальный кешь заточенный под Ваши требование + любое хранилище. IMHO

Без описания задачи и патерна нагрузки, советовать бесмысленно. Так же не понятно, нафига вам вообще БД. Файлы на диске вполне рулят ))). По производительности будут самое быстрое ))).

...

Рейтинг:

0 / 0

05.03.2014, 13:35

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38579316

DPH3

Участник

Сообщения: 524

Рейтинг: 0 / 0

kdvDPH3 "Взрослые" РСУБД очень неплохо умеют работать с диском на достаточно низком уровне RAW.
насколько я помню, уже давно было признано, что RAW не дает значимого преимущества. И уж тем более не обеспечивает "большей надежности".
Сбой физического диска это сбой, и похер, какая сверху него прослойка.

Обеспечение надежности и RAW - это независимые фичи, разумеется И, конечно, RAW не для надежности.
Про эффективность RAW - ничего не могу сказать. DB2шники говорят, что иногда RAW заметно лучше, сам не тестировал.

...

Рейтинг:

0 / 0

05.03.2014, 17:25

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38579363

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

при возникновении темы "Oracle на RAW", Oracle говорил о 10-15% прироста попугая. Как мерили, не понятно.

Смысл не столько в RAW и скорости дисков, сколько в том, что нет обращений к ОС. Соответственно не нужна борьба с глюками ОС. Последние, например, на Linux и тестовой системе наблюдал вживую. Когда при full table скан ОС начинала кешировать файлы БД и отдавать память из-под приложения на ненужный многогигабайтный кеш файловой системы. Вылечилось пинанимем админов и настройкой асинхронного ввода-вывода.

В ситуации с RAW таких проблем нет по определению. ОС не используется. Все управление на уровне СУБД.

...

Рейтинг:

0 / 0

05.03.2014, 18:00

| Ответить | Цитировать | Написать

Посоветуйте БД для проекта

#38579752

Вильгельм Холтофф

Гость

DruhПри этом общее количество сущностей порядка 100млн.
Чё-то многовато ...

...

Рейтинг:

0 / 0

06.03.2014, 10:05

| Ответить | Цитировать | Написать

21 сообщений из 21, страница 1 из 1

Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Посоветуйте БД для проекта

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=35&fpage=7&tid=1552393]:	0ms
get settings:	11ms
get forum list:	14ms
check forum access:	4ms
check topic access:	4ms
track hit:	29ms
get topic data:	13ms
get forum data:	3ms
get page messages:	88ms
get tp. blocked users:	2ms
others:	15ms

total:	183ms