|
Выбор СУБД для больших данных
|
|||
---|---|---|---|
#18+
Vovaka , я вертику взял по совету из первого комментария. Для аналитики она просто превосходна! Единственный недостаток, который я нашел на данный момент - крайне медленные апдейты. Так что приходится туда заливать только необходимые для аналитики данные. lookat , спасибо, я посмотрю на эту субд. Ибо вопрос с аналитикой по этим данным решен, а вот вопрос хранения сырых данных нет. Так что теперь задача у меня сводится к поиску субд, которая сможет хранить необходимый объем данных, а главное осуществлять быстрый поиск по отличным от primary-key полям на этой базе. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 09:13 |
|
Выбор СУБД для больших данных
|
|||
---|---|---|---|
#18+
Neerrar Vovaka , я вертику взял по совету из первого комментария. Для аналитики она просто превосходна! Единственный недостаток, который я нашел на данный момент - крайне медленные апдейты. Так что приходится туда заливать только необходимые для аналитики данные. Ну в Вертике они хотя бы есть, в отличие например от GreenPlum c его Append only storage. Медленные они в силу того, что каждый update по факту вставка двух записей, одна о том, что запись удалена, вторая с новыми значениями, а т.к. ROS контейнеры в Вертике основаны на принципе write once, то все контейнеры с измененными записями нужно перестроить и перезаписать. Но частично проблему большого кол-ва апдейтов можно решить разными способами, например можно поиграться с партиционированием и стейджингом, залить изменения как вставки, сформировать и вставить новый набор данных с учетом изменений и удалить ненужные уже партиции - будет работать на порядки быстрее. Ну и т.п. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 10:17 |
|
Выбор СУБД для больших данных
|
|||
---|---|---|---|
#18+
Vovaka , я пока решил таким вот способом: 1. Я веду некий "лог" изменений в обычной БД 2. Раз в 5 минут выгребаю все данные из этого лога 3. Собираю данные для актуального состояния 4. Удаляю обновляемые данные из Вертики 5. Заливаю через COPY актуальные данные в вертику Вот как-то так. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 12:06 |
|
Выбор СУБД для больших данных
|
|||
---|---|---|---|
#18+
Neerrar Vovaka , я пока решил таким вот способом: 1. Я веду некий "лог" изменений в обычной БД 2. Раз в 5 минут выгребаю все данные из этого лога 3. Собираю данные для актуального состояния 4. Удаляю обновляемые данные из Вертики 5. Заливаю через COPY актуальные данные в вертику Вот как-то так. берешь гринплам и делаешь тоже самое. Только в пункте 1. вместо отдельной бд, просто row-based таблица в том же гринпламе. И тогда пункт 5 будет в разы шустрее. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 12:18 |
|
Выбор СУБД для больших данных
|
|||
---|---|---|---|
#18+
или вообще одна таблица - партиция append-only Column-Oriented + партиция обычная row-based для обновлений. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 12:19 |
|
Выбор СУБД для больших данных
|
|||
---|---|---|---|
#18+
Neerrar а главное осуществлять быстрый поиск по отличным от primary-key полям на этой базе. для этого есть банальные индексы - решение поверенное десятилетиями. Не знаю как в вертике - а в гринпламе они есть, причем и б-три и битмап даже ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 12:20 |
|
Выбор СУБД для больших данных
|
|||
---|---|---|---|
#18+
Ivan DurakNeerrar а главное осуществлять быстрый поиск по отличным от primary-key полям на этой базе. для этого есть банальные индексы - решение поверенное десятилетиями. Не знаю как в вертике - а в гринпламе они есть, причем и б-три и битмап даже В Вертике индексов нет в принципе. Там другая архитектура. Но ТС, насколько я понял, для сырцов выбирает что-то бесплатное. Хотя и Вертика до 1ТБ тоже бесплатна. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 12:27 |
|
Выбор СУБД для больших данных
|
|||
---|---|---|---|
#18+
VovakaА если будет 50 - какие прогнозы? Ничего не имею против данного решения, просто когда у меня было 3 лярда, я знал, что будет 30 и ничего не изменится, сейчас у меня за 30 местами и я знаю, что будет 300 и опять ничего не изменится в плане производительности. Только лицензии и серваки докупать в кластер :) наш рост не опережает прогресса систем хранения, уже 5Тб HDD на подходе ) ... |
|||
:
Нравится:
Не нравится:
|
|||
03.10.2013, 22:45 |
|
Выбор СУБД для больших данных
|
|||
---|---|---|---|
#18+
Рекомендую Vertica. Основные плюсы: - Аналитика в реальном времени – и запросы, и загрузка данных - Поддерживает действительно большие объемы данных– Терабайты и больше - Неограниченная масштабируемость - Экстремальная производительность - Простота использования и администрирования -Легкость разработки решения. - Энергетическая эффективность Если добавить к Vertica еще Tableau для визуализации данных, получится отличное BI-решение. Подробнее http://analytikaplus.ru/?page_id=68 Примеры успешных внедрений HP Vertica + Tableau: http://analytikaplus.ru/?p=751 ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2013, 17:05 |
|
|
start [/forum/search_topic.php?author=indusij&author_mode=last_topics&do_search=1]: |
0ms |
get settings: |
8ms |
get forum list: |
16ms |
get settings: |
11ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
60ms |
get topic data: |
13ms |
get forum data: |
2ms |
get page messages: |
58ms |
get tp. blocked users: |
2ms |
others: | 440ms |
total: | 633ms |
0 / 0 |