|
СУБД для быстрого извлечения большого количества документов
|
|||
---|---|---|---|
#18+
Нужно хранилище (софт) для сервиса, поставляющего данные и сервиса, анализирующего эти данные. Хранилище предназначено для хранения и обработки текстовых документов с строковыми и бинарными атрибутами. Сервис, поставляющий данные, только пишет данные в хранилище, никаких удалений (пока) не предусмотрено. Сервис, анализирующий данные, должен получить из хранилища коллекцию документов за интервал времени и по заданному объекту (внешний ключ в терминах РСУБД). Типичная коллекция содержит 100-1000 документов, каждый по 1-10 Кб. Есть ли какие-либо существенные преимущества у не РСУБД перед РСУБД? ... |
|||
:
Нравится:
Не нравится:
|
|||
07.05.2012, 00:50 |
|
СУБД для быстрого извлечения большого количества документов
|
|||
---|---|---|---|
#18+
КензоСервис, поставляющий данные, только пишет данные в хранилище, никаких удалений (пока) не предусмотрено. Кстати, скорость вставки нужна достаточно высокая, а вот поиск по этим данным можно производить не сразу, так что можно писать большой "пачкой", а не подокументно. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.05.2012, 00:56 |
|
СУБД для быстрого извлечения большого количества документов
|
|||
---|---|---|---|
#18+
В том смысле, что скорость поиска и выборки данных нужна высокая, а вот время между заливкой данных и их доступностью для поиска может составлять до 5-10 минут. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.05.2012, 00:58 |
|
СУБД для быстрого извлечения большого количества документов
|
|||
---|---|---|---|
#18+
Звучит как типичная задача для Hadoop + Map/Reduce ... |
|||
:
Нравится:
Не нравится:
|
|||
07.05.2012, 02:17 |
|
СУБД для быстрого извлечения большого количества документов
|
|||
---|---|---|---|
#18+
neodddЗвучит как типичная задача для Hadoop + Map/Reduce Ещё типичнее эта задача для файловой системы + indexing service. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
07.05.2012, 11:54 |
|
СУБД для быстрого извлечения большого количества документов
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovЕщё типичнее эта задача для файловой системы + indexing service. Тоже можно, если транзакционность не так важна. Есть готовые бесплатные масштабируемые решения, например elasticsearch. А можно самим с использованием lucene ... |
|||
:
Нравится:
Не нравится:
|
|||
07.05.2012, 14:47 |
|
СУБД для быстрого извлечения большого количества документов
|
|||
---|---|---|---|
#18+
Я понял, что нужно: нужен софт, пишущий всегда в одной транзакции (и то время от времени) и читающий во многих. Оптимизированный для этих операций. Операция поиска - это выборка множества (>= 1000) blob'ов по интервалу времени (первое поле), рубрике (второе поле). Т.е. логическое "и" 1 + 2 поля. Документы нужны не по одному за раз, а сразу много. Больше ничего не нужно. Писать свой хранилище не хочется, т.к. существующие системы часто сами масштабируются на несколько узлов (рсубд и NOSQL). Кстати, полнотекстовый поиск не нужен - этим займется софт аналитики. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.05.2012, 18:07 |
|
СУБД для быстрого извлечения большого количества документов
|
|||
---|---|---|---|
#18+
CouchDB, говорят, хорошо с документами работает. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.05.2012, 04:09 |
|
СУБД для быстрого извлечения большого количества документов
|
|||
---|---|---|---|
#18+
neodddCouchDB, говорят, хорошо с документами работает. индексы и масштабирование на несколько узлов прилагаются? ... |
|||
:
Нравится:
Не нравится:
|
|||
10.05.2012, 20:04 |
|
СУБД для быстрого извлечения большого количества документов
|
|||
---|---|---|---|
#18+
Кензоиндексы и масштабирование на несколько узлов прилагаются? Есть свежая информация с поля боя, так сказать. На английском: http://news.ycombinator.com/item?id=3954596 ... |
|||
:
Нравится:
Не нравится:
|
|||
11.05.2012, 13:06 |
|
|
start [/forum/topic.php?fid=35&fpage=11&tid=1552557]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
22ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
50ms |
get tp. blocked users: |
2ms |
others: | 240ms |
total: | 354ms |
0 / 0 |