Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД для быстрого извлечения большого количества документов / 10 сообщений из 10, страница 1 из 1
07.05.2012, 00:50
    #37784892
Кензо
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
СУБД для быстрого извлечения большого количества документов
Нужно хранилище (софт) для сервиса, поставляющего данные и сервиса, анализирующего эти данные. Хранилище предназначено для хранения и обработки текстовых документов с строковыми и бинарными атрибутами.
Сервис, поставляющий данные, только пишет данные в хранилище, никаких удалений (пока) не предусмотрено.
Сервис, анализирующий данные, должен получить из хранилища коллекцию документов за интервал времени и по заданному объекту (внешний ключ в терминах РСУБД). Типичная коллекция содержит 100-1000 документов, каждый по 1-10 Кб. Есть ли какие-либо существенные преимущества у не РСУБД перед РСУБД?
...
Рейтинг: 0 / 0
07.05.2012, 00:56
    #37784898
Кензо
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
СУБД для быстрого извлечения большого количества документов
КензоСервис, поставляющий данные, только пишет данные в хранилище, никаких удалений (пока) не предусмотрено.
Кстати, скорость вставки нужна достаточно высокая, а вот поиск по этим данным можно производить не сразу, так что можно писать большой "пачкой", а не подокументно.
...
Рейтинг: 0 / 0
07.05.2012, 00:58
    #37784899
Кензо
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
СУБД для быстрого извлечения большого количества документов
В том смысле, что скорость поиска и выборки данных нужна высокая, а вот время между заливкой данных и их доступностью для поиска может составлять до 5-10 минут.
...
Рейтинг: 0 / 0
07.05.2012, 02:17
    #37784921
neoddd
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
СУБД для быстрого извлечения большого количества документов
Звучит как типичная задача для Hadoop + Map/Reduce
...
Рейтинг: 0 / 0
07.05.2012, 11:54
    #37785062
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
СУБД для быстрого извлечения большого количества документов
neodddЗвучит как типичная задача для Hadoop + Map/Reduce

Ещё типичнее эта задача для файловой системы + indexing service.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
07.05.2012, 14:47
    #37785226
neoddd
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
СУБД для быстрого извлечения большого количества документов
Dimitry SibiryakovЕщё типичнее эта задача для файловой системы + indexing service.


Тоже можно, если транзакционность не так важна. Есть готовые бесплатные масштабируемые решения, например elasticsearch. А можно самим с использованием lucene
...
Рейтинг: 0 / 0
07.05.2012, 18:07
    #37785410
Кензо
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
СУБД для быстрого извлечения большого количества документов
Я понял, что нужно:
нужен софт, пишущий всегда в одной транзакции (и то время от времени) и читающий во многих. Оптимизированный для этих операций. Операция поиска - это выборка множества (>= 1000) blob'ов по интервалу времени (первое поле), рубрике (второе поле). Т.е. логическое "и" 1 + 2 поля. Документы нужны не по одному за раз, а сразу много. Больше ничего не нужно.

Писать свой хранилище не хочется, т.к. существующие системы часто сами масштабируются на несколько узлов (рсубд и NOSQL).

Кстати, полнотекстовый поиск не нужен - этим займется софт аналитики.
...
Рейтинг: 0 / 0
08.05.2012, 04:09
    #37785687
neoddd
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
СУБД для быстрого извлечения большого количества документов
CouchDB, говорят, хорошо с документами работает.
...
Рейтинг: 0 / 0
10.05.2012, 20:04
    #37788414
Кензо
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
СУБД для быстрого извлечения большого количества документов
neodddCouchDB, говорят, хорошо с документами работает.
индексы и масштабирование на несколько узлов прилагаются?
...
Рейтинг: 0 / 0
11.05.2012, 13:06
    #37789226
neoddd
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
СУБД для быстрого извлечения большого количества документов
Кензоиндексы и масштабирование на несколько узлов прилагаются?

Есть свежая информация с поля боя, так сказать. На английском:

http://news.ycombinator.com/item?id=3954596
...
Рейтинг: 0 / 0
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД для быстрого извлечения большого количества документов / 10 сообщений из 10, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]