pdfbox как вытащить текст из оператора TJ / Java

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Java [игнор отключен] [закрыт для гостей] / pdfbox как вытащить текст из оператора TJ

3 сообщений из 3, страница 1 из 1

pdfbox как вытащить текст из оператора TJ

#39822738

YK13

Гость

Всем доброго времени суток
В моем приложении я извлекаю контент из pdf-файла при помощи pdf-box. Для обработки оператора я делаю следующее.

Код: java

1.
2.
3.
4.
5.
6.
7.
8.
9.

public void ProcTJ(Operator operator, COSArray arg){
  java.lang.String txt = "";
  for (COSBase obj : arg) {
    if(obj instanceof COSString)
      {
        txt += ((COSString)obj).getString();
      }
  }
}

Но при попытке извлечь из элементов COSArray строки я получаю значения похожие на "\u001" "\u002" итд....
Как мне перевести эти значения в символы?

Предполагаю что где то должен быть какой то для перевода в символы.

зараннее благодарен за помошь
С уважением YK13

...

Рейтинг:

0 / 0

05.06.2019, 11:58

| Ответить | Цитировать | Написать

pdfbox как вытащить текст из оператора TJ

#39822838

Garrick

Участник

Откуда: Москва

Сообщения: 2 870

Рейтинг: 0 / 0

YK13,

Попробуйте org.apache.commons.lang.StringEscapeUtils.unescapeJava(java.lang.String)

...

Рейтинг:

0 / 0

05.06.2019, 14:17

| Ответить | Цитировать | Написать

pdfbox как вытащить текст из оператора TJ

#39823085

YK13

Гость

Garrick,
спасибо за помощь, но это к сожалению не то. Из спецификации pdf знаю что там есть в самом файле этот маппинг. Так что решение должно быть в pdfbox. Я эту задачу решал когдато на c# с использованием одной open source библиотеки для чтения и записи pdf. Но как это сделать в pdfbox пока не знаю так как не очень с ним знаком.

...

Рейтинг:

0 / 0

05.06.2019, 20:16

| Ответить | Цитировать | Написать

3 сообщений из 3, страница 1 из 1

Форумы / Java [игнор отключен] [закрыт для гостей] / pdfbox как вытащить текст из оператора TJ

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=59&tid=2121270]:	0ms
get settings:	8ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	149ms
get topic data:	8ms
get forum data:	2ms
get page messages:	33ms
get tp. blocked users:	1ms
others:	235ms

total:	456ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы