powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Java [игнор отключен] [закрыт для гостей] / pdfbox как вытащить текст из оператора TJ
3 сообщений из 3, страница 1 из 1
pdfbox как вытащить текст из оператора TJ
    #39822738
YK13
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Всем доброго времени суток
В моем приложении я извлекаю контент из pdf-файла при помощи pdf-box. Для обработки оператора я делаю следующее.
Код: java
1.
2.
3.
4.
5.
6.
7.
8.
9.
public void ProcTJ(Operator operator, COSArray arg){
  java.lang.String txt = "";
  for (COSBase obj : arg) {
    if(obj instanceof COSString)
      {
        txt += ((COSString)obj).getString();
      }
  }
}



Но при попытке извлечь из элементов COSArray строки я получаю значения похожие на "\u001" "\u002" итд....
Как мне перевести эти значения в символы?

Предполагаю что где то должен быть какой то для перевода в символы.

зараннее благодарен за помошь
С уважением YK13
...
Рейтинг: 0 / 0
pdfbox как вытащить текст из оператора TJ
    #39822838
Garrick
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
pdfbox как вытащить текст из оператора TJ
    #39823085
YK13
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Garrick,
спасибо за помощь, но это к сожалению не то. Из спецификации pdf знаю что там есть в самом файле этот маппинг. Так что решение должно быть в pdfbox. Я эту задачу решал когдато на c# с использованием одной open source библиотеки для чтения и записи pdf. Но как это сделать в pdfbox пока не знаю так как не очень с ним знаком.
...
Рейтинг: 0 / 0
3 сообщений из 3, страница 1 из 1
Форумы / Java [игнор отключен] [закрыт для гостей] / pdfbox как вытащить текст из оператора TJ
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]