powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / C++ [игнор отключен] [закрыт для гостей] / Нужен парсер *.doc, *.xls ...
10 сообщений из 10, страница 1 из 1
Нужен парсер *.doc, *.xls ...
    #33620433
Opilki_Inside
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Всем привет!

Мне нужно вытащить текстовое наполнение файлов в форматах *.doc, *.xls, *, *.rtf, *.html... Для последующий загрузки полученного текста в БД с индексацией для полнотекстового поиска...

Главное что бы этот парсер не был привязан к MSWord и работал с документами именно как с файлами, а не использовал COM-объекты...

Кто нибудь встречал подобное?
...
Рейтинг: 0 / 0
Нужен парсер *.doc, *.xls ...
    #33620472
Фотография Хрен
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Может это подойдет?
...
Рейтинг: 0 / 0
Нужен парсер *.doc, *.xls ...
    #33620520
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WordML не подойдет ?
...
Рейтинг: 0 / 0
Нужен парсер *.doc, *.xls ...
    #33620727
сам Microsoft для данных целей ( MSSearch full-text MSSql2000, 2005 ) использует COM-объекты с реализацией интерфейса IFilter (см. MSDN)

эти объекты распространяются свободно, см. http://www.ifilter.org/Links.htm; офисные фильтры (OffFilt.dll) вроде как предустановлены на 2003, 2000 Server

для своих нужд мы сделали ActiveX обертку для их вызова
...
Рейтинг: 0 / 0
Нужен парсер *.doc, *.xls ...
    #33621951
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Нужен парсер *.doc, *.xls ...
    #33622001
Lepsik
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Opilki_InsideВсем привет!

Мне нужно вытащить текстовое наполнение файлов в форматах *.doc, *.xls, *, *.rtf, *.html... Для последующий загрузки полученного текста в БД с индексацией для полнотекстового поиска...

Главное что бы этот парсер не был привязан к MSWord и работал с документами именно как с файлами, а не использовал COM-объекты...

Кто нибудь встречал подобное?

MSSQL сервер впоолне понимает данные форматы с использованием фильтров.
...
Рейтинг: 0 / 0
Нужен парсер *.doc, *.xls ...
    #33622705
Фотография Petro123
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Lepsik Opilki_InsideВсем привет!

Мне нужно вытащить текстовое наполнение файлов в форматах *.doc, *.xls, *, *.rtf, *.html... Для последующий загрузки полученного текста в БД с индексацией для полнотекстового поиска...

Главное что бы этот парсер не был привязан к MSWord и работал с документами именно как с файлами, а не использовал COM-объекты...

Кто нибудь встречал подобное?

MSSQL сервер впоолне понимает данные форматы с использованием фильтров.
правильно - озадач этим сервер!
...
Рейтинг: 0 / 0
Нужен парсер *.doc, *.xls ...
    #33622795
Tracer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гм. он же не указал сервер, понятно, что MS SQL сам это может сделать
...
Рейтинг: 0 / 0
Нужен парсер *.doc, *.xls ...
    #33622882
Opilki_Inside
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
хех.. а почему вы все думаите что я использую MS SQL? Программу я пишу под Linux, а в качестве СУБД использую PostgreSQL. Вот. Извиняюсь, что не указал это в своем вопросе, просто было интересно услышать любые мнения, а не только те, что касаются моей текущей задачи...

ХренМожет это подойдет?
Я скачал, поковырялся с ним - очень классно парсит DOC-овские файлы, даже с русскими проблем нет... но к сожалению RTF, XLS ни в какую :(

MasterZivWordML не подойдет ?
Я так понял, что в таком случае нужно сохранить doc-вский файл в формат XML, а потом его парсить?

Хочется что бы просто, грубо говоря, был конвертор *.xls|*.rtf > *.txt
кроссплатформенный с исходниками...
...
Рейтинг: 0 / 0
Нужен парсер *.doc, *.xls ...
    #33624160
nik_x
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Freshmeat.net & Sourceforge.net уже не рулят???

Тынц
Тынц
...
Рейтинг: 0 / 0
10 сообщений из 10, страница 1 из 1
Форумы / C++ [игнор отключен] [закрыт для гостей] / Нужен парсер *.doc, *.xls ...
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]