Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Индексированный поиск в архиве / 14 сообщений из 14, страница 1 из 1
06.08.2009, 10:26:12
    #36129234
adm-fil
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
Добрый день.
Постановка задачи:
Необходимо из тествовых файлов, упакованых в архив, выбрать строки соотвествующие указаному регулярному выражению, или простой маске.
Размер одного неупакованого файла - 50 МБ. Кол-во файлов 1000.

Время поиска - не более 5 сек. Железо : 4 Xeon X2 3 Гц, памяти завались..., винты скоростные...

Может есть какие-то механизмы индексирования?

P.S. У меня выходит только за 11 сек. С помощью конвейера find| bzip2 |grep
...
Рейтинг: 0 / 0
06.08.2009, 10:26:45
    #36129235
adm-fil
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
*ТЕКСТОВЫХ
...
Рейтинг: 0 / 0
06.08.2009, 10:59:55
    #36129339
adm-fil
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
Прошу прощения, не в секундах все а в минутах.
~ Найти за 5 мин.
~ Текущий алгоритм делает это за 11 минут
...
Рейтинг: 0 / 0
06.08.2009, 11:51:37
    #36129501
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
adm-filНеобходимо из тествовых файлов, упакованых в архив, выбрать строки соотвествующие указаному регулярному выражению, или простой маске.
Размер одного неупакованого файла - 50 МБ. Кол-во файлов 1000.

Время поиска - не более 5 сек. Железо : 4 Xeon X2 3 Гц, памяти завались..., винты скоростные...

Может есть какие-то механизмы индексирования?
Есть вариант для поиска по простой маске.

Берём какую-нибудь textsearch открытую библиотеку. Распаковываем архив. Индексируем всё. Запаковываем обратно. Индексный файл оставляем рядышком с архивом в открытом виде. Используем протокол взаимодействия с API textsearch для поиска любой информации.

Если исходить из предположения что архивы изменяются очень-очень редко а то и вообще не изменяются, то индекс будет всегда актуальным.

Вариант с использованием find| bzip2 |grep всегда будет тормозным за счёт постоянной перераспаковки. Здесь никакой Xeon не поможет.
...
Рейтинг: 0 / 0
06.08.2009, 11:56:26
    #36129512
adm-fil
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
Файлы никогда не меняются, это логи.
Видимо Ваша идея действительно оптимальная, сам пришел к такой-же мысли, но хотел индексировать вручную.

Какой движок порекомендуете?
...
Рейтинг: 0 / 0
06.08.2009, 11:57:37
    #36129519
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
А какая операционка?
...
Рейтинг: 0 / 0
06.08.2009, 11:59:00
    #36129521
adm-fil
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
SUSE 9
...
Рейтинг: 0 / 0
06.08.2009, 12:01:01
    #36129529
adm-fil
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
Пишу на C, С++
Так что видимо библиотека нужна под них, яву к сожалению не знаю, равно как и прочие ТиСиЭлы и Пайтоны
...
Рейтинг: 0 / 0
06.08.2009, 12:04:41
    #36129548
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
Почитайте про Бигл . Возможно это это поможет. Больше ничего скзать не могу. Т.к. поисковыми движками под Линуксы я не интересовался.
...
Рейтинг: 0 / 0
06.08.2009, 12:13:50
    #36129582
adm-fil
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
Бигл слишком "тяжелый".
Не хочу на сервер ничего лишнего ставить, слишком важный он.
...
Рейтинг: 0 / 0
06.08.2009, 12:28:08
    #36129637
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
Как будет угодно. Посмотри еще Recoll. Может подойдет.
...
Рейтинг: 0 / 0
06.08.2009, 12:33:08
    #36129657
MasterZiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
mayton пишет:

> Как будет угодно. Посмотри еще Recoll. Может подойдет.

Возможно ещё Sphinx.

Если не хотите чего-то ставить, пишите индексы сами.
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
06.08.2009, 12:57:38
    #36129748
adm-fil
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
Спасибо всем, ковыряю указаные либы.
...
Рейтинг: 0 / 0
06.08.2009, 15:59:20
    #36130458
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексированный поиск в архиве
Вообще, если искать надо в логах, то TextSearch технологии тут пожалуй будут избыточными. Ну... по крайней мере надо для себя определиться, что будем искать чаще всего. Ключевых слов в логах мало. Уникальны в основном timestamp-s. И если их всех помещать в индекс, то он по размеру может стать соизмеримым с размером лога. А если-же их не помещать - тогда мы теряем возможность искать события в диапазоне дат внутри одного файла.
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Индексированный поиск в архиве / 14 сообщений из 14, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]