powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Delphi [игнор отключен] [закрыт для гостей] / pdf в word
21 сообщений из 21, страница 1 из 1
pdf в word
    #39453931
bas02
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
как программным путем преобразовать pdf в word ?
...
Рейтинг: 0 / 0
pdf в word
    #39453945
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Hello, Bas02!
You wrote on 16 мая 2017 г. 16:11:51:

Bas02> как программным путем преобразовать pdf в word ?написать парсер и композер.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
pdf в word
    #39454004
bas02
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
МимопроходящийHello, Bas02!
You wrote on 16 мая 2017 г. 16:11:51:

Bas02> как программным путем преобразовать pdf в word ?написать парсер и композер.

что за композер?
...
Рейтинг: 0 / 0
pdf в word
    #39454026
Фотография Кроик Семён
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
bas02как программным путем преобразовать pdf в word ?

это очень непростая тема.

Для меня было бы приемлимым воспользоваться готовым модулем (подключаемая библиотека или фоновый вызов внешней программы)
...
Рейтинг: 0 / 0
pdf в word
    #39454128
Фотография Dimonka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Какой-то конкретный PDF или абстрактный?

Сделать скриншот ридере и вставить в ворд?
Или хочешь, чтобы текст отдельно, картинки отдельно, шрифты встроились, скрипты конвертировались в vba и поэтессы сыграли с тобой в преферанс?
...
Рейтинг: 0 / 0
pdf в word
    #39454174
Гаджимурадов Рустам
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Скрипты, поэтессы и блэкджек не нужны, наверное,
а вот текст, картинки и таблицы (что важно) - нужны.
Собсно, такие готовые тулзы есть - он хочет сам,
программно (хотя не понимаю, зачем ему это).
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
pdf в word
    #39454187
чччД
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гаджимурадов РустамСкрипты, поэтессы и блэкджек не нужны, наверное,
а вот текст, картинки и таблицы (что важно) - нужны.
Собсно, такие готовые тулзы есть - он хочет сам,
программно (хотя не понимаю, зачем ему это).

Тулзы есть, но все, что я пробовал, делало это с гадким качеством.
Лет пять назад. Возможно, сейчас ситуация улучшилась.
...
Рейтинг: 0 / 0
pdf в word
    #39454211
Гаджимурадов Рустам
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
чччД> Тулзы есть, но все, что я пробовал, делало это с гадким качеством.
> Лет пять назад. Возможно, сейчас ситуация улучшилась.

Я пользовал VeryPDF2Word (или что-то вроде того)
и SolidDocument (или что-то в этом роде) - последняя
работала в целом терпимо, в обе стороны, IIRC.

Даже онлайн-сервисы есть для этого.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
pdf в word
    #39454389
Фотография Dimonka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гаджимурадов РустамСкрипты, поэтессы и блэкджек не нужны, наверное,
а вот текст, картинки и таблицы (что важно) - нужны.
Собсно, такие готовые тулзы есть - он хочет сам,
программно (хотя не понимаю, зачем ему это).

по сути в PDF-е нет ни таблиц ни текста, в основном это расставленные по листу обрывки фраз, отдельные слова и даже буквы. Поэтому ждать от "тулзов" чуда я бы не стал.
Но к примеру xpdf может генерить HTML страницу на основе которой вполне можно сделать неплохой генерильщик таблиц. Текст в нём тоже относительно неплохо экспортируется.
...
Рейтинг: 0 / 0
pdf в word
    #39454464
Фотография JayDi
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Попробовать зайти с другого конца -- сделать распознавание PDF-файла из, например, FineReader'а (или другого софта для распознавания сканированных документов). Помнится, у них таблицы автоматически могли определяться.
...
Рейтинг: 0 / 0
pdf в word
    #39454508
BlackEric
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если пдф не одна сплошная картинка, то можно попробовать CTRL+A -> CTRL+C -> CTRL+V
...
Рейтинг: 0 / 0
pdf в word
    #39454667
Гаджимурадов Рустам
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimonka> по сути в PDF-е нет ни таблиц ни текста, в основном это
Dimonka> расставленные по листу обрывки фраз, отдельные слова и даже буквы.

Это, конечно, очень сильное и смелое заявление.
Особенно с учетом стандарта PDF-разметки.
Хотя есть и такие, где текст картинкой, конечно.

BlackEric> Если пдф не одна сплошная картинка, то можно
BlackEric> попробовать CTRL+A -> CTRL+C -> CTRL+V

Попробовать-то можно (было бы), но где, *программно"?
Не говоря уже о том, что это не сработает толком для
картинок и таблиц.

JaDi> Попробовать зайти с другого конца -- сделать
JaDi> распознавание PDF-файла из, например, FineReader'а

Это в прямом смысле с другого конца - гланды через оную.
OCR-ы тут нужно в крайнем случае использовать, когда всё
картинкой (ибо лишнее звено). Уж лучше готовые тулзы
через "ком.строку" вызывать.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
pdf в word
    #39454969
Фотография Dimonka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гаджимурадов РустамDimonka> по сути в PDF-е нет ни таблиц ни текста, в основном это
Dimonka> расставленные по листу обрывки фраз, отдельные слова и даже буквы.

Это, конечно, очень сильное и смелое заявление.
Особенно с учетом стандарта PDF-разметки.
Хотя есть и такие, где текст картинкой, конечно.


Ну и какой элемент форматирования даст тебе понять - это абзац или просто конец предложения? Ну или это таблица, или просто циферки разбросаны по странице?

На сколько я понимаю, там разметка касается только позиционирования, расстояний между буквами, словами + шрифты.

Зная где расположены буковки надо решать уже самому - относятся ли они к одному предложению или это два разных столбца.
...
Рейтинг: 0 / 0
pdf в word
    #39454989
Гаджимурадов Рустам
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
> Ну и какой элемент форматирования

Мне щас стандарт цитировать или что?
Он же в открытом доступе, IIRC, - открой
да глянь. Там все очень похоже на HTML.
Как по-твоему генераторы PDF работают?
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
pdf в word
    #39454991
Фотография Dimonka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гаджимурадов Рустам> Ну и какой элемент форматирования

Мне щас стандарт цитировать или что?
Он же в открытом доступе, IIRC, - открой
да глянь. Там все очень похоже на HTML.
Как по-твоему генераторы PDF работают?


Смотрел я в стандарт. Он скорее похож на SVG. Там нет ни таблиц, ни параграфов. Просто расположение текста на листе, как в прочем и у генераторов отчётов в PDF.
...
Рейтинг: 0 / 0
pdf в word
    #39454992
Гаджимурадов Рустам
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ХЗ, может, ты и прав, не буду спорить.
Апачевский FOP, по крайней мере, не
просто расположение генерил, IIRC.

https://habrahabr.ru/post/69568/
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
pdf в word
    #39455202
Фотография Кроик Семён
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гаджимурадов Рустам https://habrahabr.ru/post/69568/

какая хорошая ссылка, взял себе на заметку
...
Рейтинг: 0 / 0
pdf в word
    #39455358
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
статья - окаменевшее дерьмо мамонта.
на новых спецификациях pdf оно не работоспособно.
а Рустам неправ, да.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
pdf в word
    #39455392
Гаджимурадов Рустам
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мимопроходящий> на новых спецификациях pdf оно не работоспособно.

Ты про PDF/A или чего?

P.S. Не настаиваю. Если кто-то знает рабочий
вариант / описание / статью - кидайте ссылку.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
pdf в word
    #39455418
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
тут есть несколько человеков (не считая меня), у которых есть самописные парсеры pdf.
где-то с полгода назад, не помню кто именно "обрадовал" народ, что в версии 1.5 и старше
структура метаданных претерпела изменения.
народ пощупал и сказал "ууу... мляяяя..."
искать топик лень.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
pdf в word
    #39455423
Гаджимурадов Рустам
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
> искать топик лень.

Дык нашёл бы, это ж дело минуты.
Или хотя бы ключевые слова назвал.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
21 сообщений из 21, страница 1 из 1
Форумы / Delphi [игнор отключен] [закрыт для гостей] / pdf в word
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]