|
|
|
кто знает чтонибуть о бинарном формате DOC
|
|||
|---|---|---|---|
|
#18+
встала задача достать текст из документов, не имея ворда. Обнаружил что текст находится в простом Юникоде, начинается по смещению 0хА00 и идет блоками. Проблема в том что блоки разной длины, в основном кратные 2кБ и прерываются посторонней кашей. Можно просто выдирать символы из диапазона А-я +ASCII, но в конце идет служебная инфа, названия шрифтов и т.п., которые проходят этот фильтр и проскакивают... Вот найти бы волшебное место в файле где указаны все смещения и длины блоков :) Ну а задача максимум - еще и картинки повытаскивать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.07.2009, 19:02:11 |
|
||
|
кто знает чтонибуть о бинарном формате DOC
|
|||
|---|---|---|---|
|
#18+
Как вариант Можно воспользоваться стандартным WorPad. Он умеет читать вордовские доки и сохранять их в .TXT и в .RTF. Откуда уже не столь сложно взять все, что нужно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.07.2009, 19:25:22 |
|
||
|
кто знает чтонибуть о бинарном формате DOC
|
|||
|---|---|---|---|
|
#18+
нее, надо чтоб можно было например из под линуха вытащить текст или изпод смартфона... :) вот нашел реализацию, исходники бы вытянуть... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.07.2009, 20:23:00 |
|
||
|
|

start [/forum/topic.php?fid=61&tid=2179256]: |
0ms |
get settings: |
11ms |
get forum list: |
22ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
305ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
31ms |
get tp. blocked users: |
1ms |
| others: | 237ms |
| total: | 624ms |

| 0 / 0 |
