powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Индексированный поиск в архиве
14 сообщений из 14, страница 1 из 1
Индексированный поиск в архиве
    #36129234
adm-fil
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Добрый день.
Постановка задачи:
Необходимо из тествовых файлов, упакованых в архив, выбрать строки соотвествующие указаному регулярному выражению, или простой маске.
Размер одного неупакованого файла - 50 МБ. Кол-во файлов 1000.

Время поиска - не более 5 сек. Железо : 4 Xeon X2 3 Гц, памяти завались..., винты скоростные...

Может есть какие-то механизмы индексирования?

P.S. У меня выходит только за 11 сек. С помощью конвейера find| bzip2 |grep
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129235
adm-fil
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
*ТЕКСТОВЫХ
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129339
adm-fil
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Прошу прощения, не в секундах все а в минутах.
~ Найти за 5 мин.
~ Текущий алгоритм делает это за 11 минут
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129501
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
adm-filНеобходимо из тествовых файлов, упакованых в архив, выбрать строки соотвествующие указаному регулярному выражению, или простой маске.
Размер одного неупакованого файла - 50 МБ. Кол-во файлов 1000.

Время поиска - не более 5 сек. Железо : 4 Xeon X2 3 Гц, памяти завались..., винты скоростные...

Может есть какие-то механизмы индексирования?
Есть вариант для поиска по простой маске.

Берём какую-нибудь textsearch открытую библиотеку. Распаковываем архив. Индексируем всё. Запаковываем обратно. Индексный файл оставляем рядышком с архивом в открытом виде. Используем протокол взаимодействия с API textsearch для поиска любой информации.

Если исходить из предположения что архивы изменяются очень-очень редко а то и вообще не изменяются, то индекс будет всегда актуальным.

Вариант с использованием find| bzip2 |grep всегда будет тормозным за счёт постоянной перераспаковки. Здесь никакой Xeon не поможет.
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129512
adm-fil
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Файлы никогда не меняются, это логи.
Видимо Ваша идея действительно оптимальная, сам пришел к такой-же мысли, но хотел индексировать вручную.

Какой движок порекомендуете?
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129519
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А какая операционка?
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129521
adm-fil
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SUSE 9
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129529
adm-fil
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Пишу на C, С++
Так что видимо библиотека нужна под них, яву к сожалению не знаю, равно как и прочие ТиСиЭлы и Пайтоны
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129548
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Почитайте про Бигл . Возможно это это поможет. Больше ничего скзать не могу. Т.к. поисковыми движками под Линуксы я не интересовался.
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129582
adm-fil
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бигл слишком "тяжелый".
Не хочу на сервер ничего лишнего ставить, слишком важный он.
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129637
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Как будет угодно. Посмотри еще Recoll. Может подойдет.
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129657
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton пишет:

> Как будет угодно. Посмотри еще Recoll. Может подойдет.

Возможно ещё Sphinx.

Если не хотите чего-то ставить, пишите индексы сами.
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36129748
adm-fil
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Спасибо всем, ковыряю указаные либы.
...
Рейтинг: 0 / 0
Индексированный поиск в архиве
    #36130458
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вообще, если искать надо в логах, то TextSearch технологии тут пожалуй будут избыточными. Ну... по крайней мере надо для себя определиться, что будем искать чаще всего. Ключевых слов в логах мало. Уникальны в основном timestamp-s. И если их всех помещать в индекс, то он по размеру может стать соизмеримым с размером лога. А если-же их не помещать - тогда мы теряем возможность искать события в диапазоне дат внутри одного файла.
...
Рейтинг: 0 / 0
14 сообщений из 14, страница 1 из 1
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Индексированный поиск в архиве
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]