Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Выбор пал на Cassandra / 9 сообщений из 9, страница 1 из 1
01.05.2017, 13:01
    #39446875
ciwiladoanart
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выбор пал на Cassandra
Коллеги, приветствую!

Помогите советом, плз!

Есть задача: нужно хранить таблицу данных которая со весеннем не будет влезать на одну машину. В таблице есть несколько полей по которым нужно осуществлять поиск, пэгинацию и сортировку соответственно. Но поиск и сортировка должны осуществляться на частях этой таблицы. Пример: таблица городов. Мы берем страну и города в ней нужно уметь сортировать по количеству жителей, по площади и например по типу. Так же нужно уметь фильтровать записи и пэгинацию для вывода на фронт. Как вы понимаете, фронт от всех городов в России умрет. Да, сложные фильтры не нужны, т.е. фильтр только по одной колонке.

Если бы влезало на одну машину, то без вопросов взял бы rdbms. Можно так же шардировать по стране. Но мне кажется, что когда в rdbms появляется Шарлин, то это уже не ее задача. Есть мысль, что нужно nosql решение. В документных бд опыт небольшой и часто слышу про потери данных. По CAP теореме нужно скорее CP. Расстрел SSTable Cassandra (replication factor 3). Вроде ложиться ключ распределения - страна. Но для каждой сортировки в ней нужно делать отдельную таблицу. Т.е. в каждой разный кластерный ключ для сортировки и поиска.

Подскажите, насколько оправдан выбор касандры? Может можно сделать проще?
...
Рейтинг: 0 / 0
01.05.2017, 22:02
    #39446970
DPH3
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выбор пал на Cassandra
ciwiladoanart,
сколько запросов в секунду в пике (поиск/изменение), сколько данных в таблице, какая селективность по выборке?
...
Рейтинг: 0 / 0
01.05.2017, 22:10
    #39446971
Siemargl
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выбор пал на Cassandra
ciwiladoanart,

сделай правильную тестовую демку на рдбмс сначала.

Как мы понимаем, они держат весьма приличные нагрузкию
...
Рейтинг: 0 / 0
03.05.2017, 13:15
    #39447817
мигель1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выбор пал на Cassandra
Siemargl,

попробуйте кликхаус, если данные не меняются ваще должно взлететь
...
Рейтинг: 0 / 0
05.05.2017, 11:34
    #39449265
Ролг Хупин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выбор пал на Cassandra
ciwiladoanartКоллеги, приветствую!

Помогите советом, плз!

Есть задача: нужно хранить таблицу данных которая со весеннем не будет влезать на одну машину. В таблице есть несколько полей по которым нужно осуществлять поиск, пэгинацию и сортировку соответственно. Но поиск и сортировка должны осуществляться на частях этой таблицы. Пример: таблица городов. Мы берем страну и города в ней нужно уметь сортировать по количеству жителей, по площади и например по типу. Так же нужно уметь фильтровать записи и пэгинацию для вывода на фронт. Как вы понимаете, фронт от всех городов в России умрет . Да, сложные фильтры не нужны, т.е. фильтр только по одной колонке.

Если бы влезало на одну машину, то без вопросов взял бы rdbms. Можно так же шардировать по стране. Но мне кажется, что когда в rdbms появляется Шарлин , то это уже не ее задача. Есть мысль, что нужно nosql решение. В документных бд опыт небольшой и часто слышу про потери данных. По CAP теореме нужно скорее CP. Расстрел SSTable Cassandra (replication factor 3). Вроде ложиться ключ распределения - страна. Но для каждой сортировки в ней нужно делать отдельную таблицу. Т.е. в каждой разный кластерный ключ для сортировки и поиска.

Подскажите, насколько оправдан выбор касандры? Может можно сделать проще?

Задача для RDBMS, можно сжатие использовать, встроенное или самописное и т.д., можно на куски порезать и т.д., а со всякими кассандрами получите головняк
...
Рейтинг: 0 / 0
08.05.2017, 17:56
    #39450138
ciwiladoanart
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выбор пал на Cassandra
Ролг Хупин,

А если 10млрд записей?
...
Рейтинг: 0 / 0
08.05.2017, 17:57
    #39450139
ciwiladoanart
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выбор пал на Cassandra
Siemargl,

Да, я примерно так и сделал. Но будет 10 млрд записей с ростом...
...
Рейтинг: 0 / 0
09.05.2017, 12:05
    #39450257
Ролг Хупин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выбор пал на Cassandra
ciwiladoanartРолг Хупин,

А если 10млрд записей?

И в чем пробелма? вы думаете, что RDBMS не вытянет?
Важно правильно дизайн сделать и задачу определить.

Естественно, если миллиарды выбирать, сортировать и выдавать, то будут пробелмы с любой базой.

Вам задали выше вопросы по подробностям, но оветов не видно.
Рассуждая в общем я бы сказал так: если думать, что использование NoSQL вместо RDBMS решит все проблемы размерности и производительности, то это будет ошибкой.

Приведите подробности вашей задачи.
...
Рейтинг: 0 / 0
09.05.2017, 19:06
    #39450411
master_yoda
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выбор пал на Cassandra
ciwiladoanartДа, я примерно так и сделал. Но будет 10 млрд записей с ростом...
Oracle, одна из шард. Задачи те же что и у Вас "поиск, пэгинацию и сортировку соответственно".
Проблем с производительностью из-за размера нет. Если будут - подробим на меньшие шарды.


Код: plaintext
1.
2.
3.
4.
5.
SQL>select num_rows from dba_tables where num_rows>20E9;

            NUM_ROWS
--------------------
      28,842,481,920
...
Рейтинг: 0 / 0
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Выбор пал на Cassandra / 9 сообщений из 9, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]