|
|
|
Нужен парсер *.doc, *.xls ...
|
|||
|---|---|---|---|
|
#18+
Всем привет! Мне нужно вытащить текстовое наполнение файлов в форматах *.doc, *.xls, *, *.rtf, *.html... Для последующий загрузки полученного текста в БД с индексацией для полнотекстового поиска... Главное что бы этот парсер не был привязан к MSWord и работал с документами именно как с файлами, а не использовал COM-объекты... Кто нибудь встречал подобное? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.03.2006, 14:41 |
|
||
|
Нужен парсер *.doc, *.xls ...
|
|||
|---|---|---|---|
|
#18+
Может это подойдет? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.03.2006, 14:48 |
|
||
|
Нужен парсер *.doc, *.xls ...
|
|||
|---|---|---|---|
|
#18+
WordML не подойдет ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.03.2006, 14:57 |
|
||
|
Нужен парсер *.doc, *.xls ...
|
|||
|---|---|---|---|
|
#18+
сам Microsoft для данных целей ( MSSearch full-text MSSql2000, 2005 ) использует COM-объекты с реализацией интерфейса IFilter (см. MSDN) эти объекты распространяются свободно, см. http://www.ifilter.org/Links.htm; офисные фильтры (OffFilt.dll) вроде как предустановлены на 2003, 2000 Server для своих нужд мы сделали ActiveX обертку для их вызова ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.03.2006, 15:36 |
|
||
|
Нужен парсер *.doc, *.xls ...
|
|||
|---|---|---|---|
|
#18+
Opilki_InsideВсем привет! Мне нужно вытащить текстовое наполнение файлов в форматах *.doc, *.xls, *, *.rtf, *.html... Для последующий загрузки полученного текста в БД с индексацией для полнотекстового поиска... Главное что бы этот парсер не был привязан к MSWord и работал с документами именно как с файлами, а не использовал COM-объекты... Кто нибудь встречал подобное? MSSQL сервер впоолне понимает данные форматы с использованием фильтров. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.03.2006, 23:58 |
|
||
|
Нужен парсер *.doc, *.xls ...
|
|||
|---|---|---|---|
|
#18+
Lepsik Opilki_InsideВсем привет! Мне нужно вытащить текстовое наполнение файлов в форматах *.doc, *.xls, *, *.rtf, *.html... Для последующий загрузки полученного текста в БД с индексацией для полнотекстового поиска... Главное что бы этот парсер не был привязан к MSWord и работал с документами именно как с файлами, а не использовал COM-объекты... Кто нибудь встречал подобное? MSSQL сервер впоолне понимает данные форматы с использованием фильтров. правильно - озадач этим сервер! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.03.2006, 11:06 |
|
||
|
Нужен парсер *.doc, *.xls ...
|
|||
|---|---|---|---|
|
#18+
Гм. он же не указал сервер, понятно, что MS SQL сам это может сделать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.03.2006, 11:27 |
|
||
|
Нужен парсер *.doc, *.xls ...
|
|||
|---|---|---|---|
|
#18+
хех.. а почему вы все думаите что я использую MS SQL? Программу я пишу под Linux, а в качестве СУБД использую PostgreSQL. Вот. Извиняюсь, что не указал это в своем вопросе, просто было интересно услышать любые мнения, а не только те, что касаются моей текущей задачи... ХренМожет это подойдет? Я скачал, поковырялся с ним - очень классно парсит DOC-овские файлы, даже с русскими проблем нет... но к сожалению RTF, XLS ни в какую :( MasterZivWordML не подойдет ? Я так понял, что в таком случае нужно сохранить doc-вский файл в формат XML, а потом его парсить? Хочется что бы просто, грубо говоря, был конвертор *.xls|*.rtf > *.txt кроссплатформенный с исходниками... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.03.2006, 11:46 |
|
||
|
|

start [/forum/topic.php?fid=57&fpage=365&tid=2031693]: |
0ms |
get settings: |
11ms |
get forum list: |
21ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
49ms |
get topic data: |
14ms |
get forum data: |
4ms |
get page messages: |
62ms |
get tp. blocked users: |
2ms |
| others: | 239ms |
| total: | 410ms |

| 0 / 0 |
