Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / C++ [игнор отключен] [закрыт для гостей] / Нужен парсер *.doc, *.xls ... / 10 сообщений из 10, страница 1 из 1
23.03.2006, 14:41
    #33620433
Opilki_Inside
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Нужен парсер *.doc, *.xls ...
Всем привет!

Мне нужно вытащить текстовое наполнение файлов в форматах *.doc, *.xls, *, *.rtf, *.html... Для последующий загрузки полученного текста в БД с индексацией для полнотекстового поиска...

Главное что бы этот парсер не был привязан к MSWord и работал с документами именно как с файлами, а не использовал COM-объекты...

Кто нибудь встречал подобное?
...
Рейтинг: 0 / 0
23.03.2006, 14:48
    #33620472
Хрен
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Нужен парсер *.doc, *.xls ...
Может это подойдет?
...
Рейтинг: 0 / 0
23.03.2006, 14:57
    #33620520
MasterZiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Нужен парсер *.doc, *.xls ...
WordML не подойдет ?
...
Рейтинг: 0 / 0
23.03.2006, 15:36
    #33620727
Нужен парсер *.doc, *.xls ...
сам Microsoft для данных целей ( MSSearch full-text MSSql2000, 2005 ) использует COM-объекты с реализацией интерфейса IFilter (см. MSDN)

эти объекты распространяются свободно, см. http://www.ifilter.org/Links.htm; офисные фильтры (OffFilt.dll) вроде как предустановлены на 2003, 2000 Server

для своих нужд мы сделали ActiveX обертку для их вызова
...
Рейтинг: 0 / 0
23.03.2006, 23:11
    #33621951
MasterZiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Нужен парсер *.doc, *.xls ...
...
Рейтинг: 0 / 0
23.03.2006, 23:58
    #33622001
Lepsik
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Нужен парсер *.doc, *.xls ...
Opilki_InsideВсем привет!

Мне нужно вытащить текстовое наполнение файлов в форматах *.doc, *.xls, *, *.rtf, *.html... Для последующий загрузки полученного текста в БД с индексацией для полнотекстового поиска...

Главное что бы этот парсер не был привязан к MSWord и работал с документами именно как с файлами, а не использовал COM-объекты...

Кто нибудь встречал подобное?

MSSQL сервер впоолне понимает данные форматы с использованием фильтров.
...
Рейтинг: 0 / 0
24.03.2006, 11:06
    #33622705
Petro123
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Нужен парсер *.doc, *.xls ...
Lepsik Opilki_InsideВсем привет!

Мне нужно вытащить текстовое наполнение файлов в форматах *.doc, *.xls, *, *.rtf, *.html... Для последующий загрузки полученного текста в БД с индексацией для полнотекстового поиска...

Главное что бы этот парсер не был привязан к MSWord и работал с документами именно как с файлами, а не использовал COM-объекты...

Кто нибудь встречал подобное?

MSSQL сервер впоолне понимает данные форматы с использованием фильтров.
правильно - озадач этим сервер!
...
Рейтинг: 0 / 0
24.03.2006, 11:27
    #33622795
Tracer
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Нужен парсер *.doc, *.xls ...
Гм. он же не указал сервер, понятно, что MS SQL сам это может сделать
...
Рейтинг: 0 / 0
24.03.2006, 11:46
    #33622882
Opilki_Inside
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Нужен парсер *.doc, *.xls ...
хех.. а почему вы все думаите что я использую MS SQL? Программу я пишу под Linux, а в качестве СУБД использую PostgreSQL. Вот. Извиняюсь, что не указал это в своем вопросе, просто было интересно услышать любые мнения, а не только те, что касаются моей текущей задачи...

ХренМожет это подойдет?
Я скачал, поковырялся с ним - очень классно парсит DOC-овские файлы, даже с русскими проблем нет... но к сожалению RTF, XLS ни в какую :(

MasterZivWordML не подойдет ?
Я так понял, что в таком случае нужно сохранить doc-вский файл в формат XML, а потом его парсить?

Хочется что бы просто, грубо говоря, был конвертор *.xls|*.rtf > *.txt
кроссплатформенный с исходниками...
...
Рейтинг: 0 / 0
24.03.2006, 16:45
    #33624160
nik_x
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Нужен парсер *.doc, *.xls ...
Freshmeat.net & Sourceforge.net уже не рулят???

Тынц
Тынц
...
Рейтинг: 0 / 0
Форумы / C++ [игнор отключен] [закрыт для гостей] / Нужен парсер *.doc, *.xls ... / 10 сообщений из 10, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]