|
|
|
pdfbox как вытащить текст из оператора TJ
|
|||
|---|---|---|---|
|
#18+
Всем доброго времени суток В моем приложении я извлекаю контент из pdf-файла при помощи pdf-box. Для обработки оператора я делаю следующее. Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. Но при попытке извлечь из элементов COSArray строки я получаю значения похожие на "\u001" "\u002" итд.... Как мне перевести эти значения в символы? Предполагаю что где то должен быть какой то для перевода в символы. зараннее благодарен за помошь С уважением YK13 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.06.2019, 11:58 |
|
||
|
pdfbox как вытащить текст из оператора TJ
|
|||
|---|---|---|---|
|
#18+
... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.06.2019, 14:17 |
|
||
|
pdfbox как вытащить текст из оператора TJ
|
|||
|---|---|---|---|
|
#18+
Garrick, спасибо за помощь, но это к сожалению не то. Из спецификации pdf знаю что там есть в самом файле этот маппинг. Так что решение должно быть в pdfbox. Я эту задачу решал когдато на c# с использованием одной open source библиотеки для чтения и записи pdf. Но как это сделать в pdfbox пока не знаю так как не очень с ним знаком. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.06.2019, 20:16 |
|
||
|
|

start [/forum/topic.php?fid=59&fpage=27&tid=2121270]: |
0ms |
get settings: |
9ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
52ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
47ms |
get tp. blocked users: |
2ms |
| others: | 227ms |
| total: | 376ms |

| 0 / 0 |
