|
|
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
как программным путем преобразовать pdf в word ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2017, 15:59:10 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Hello, Bas02! You wrote on 16 мая 2017 г. 16:11:51: Bas02> как программным путем преобразовать pdf в word ?написать парсер и композер. Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2017, 16:12:21 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
МимопроходящийHello, Bas02! You wrote on 16 мая 2017 г. 16:11:51: Bas02> как программным путем преобразовать pdf в word ?написать парсер и композер. что за композер? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2017, 17:23:58 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
bas02как программным путем преобразовать pdf в word ? это очень непростая тема. Для меня было бы приемлимым воспользоваться готовым модулем (подключаемая библиотека или фоновый вызов внешней программы) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2017, 17:50:26 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Какой-то конкретный PDF или абстрактный? Сделать скриншот ридере и вставить в ворд? Или хочешь, чтобы текст отдельно, картинки отдельно, шрифты встроились, скрипты конвертировались в vba и поэтессы сыграли с тобой в преферанс? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2017, 20:00:19 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Скрипты, поэтессы и блэкджек не нужны, наверное, а вот текст, картинки и таблицы (что важно) - нужны. Собсно, такие готовые тулзы есть - он хочет сам, программно (хотя не понимаю, зачем ему это). Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2017, 21:16:53 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Гаджимурадов РустамСкрипты, поэтессы и блэкджек не нужны, наверное, а вот текст, картинки и таблицы (что важно) - нужны. Собсно, такие готовые тулзы есть - он хочет сам, программно (хотя не понимаю, зачем ему это). Тулзы есть, но все, что я пробовал, делало это с гадким качеством. Лет пять назад. Возможно, сейчас ситуация улучшилась. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2017, 21:32:43 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
чччД> Тулзы есть, но все, что я пробовал, делало это с гадким качеством. > Лет пять назад. Возможно, сейчас ситуация улучшилась. Я пользовал VeryPDF2Word (или что-то вроде того) и SolidDocument (или что-то в этом роде) - последняя работала в целом терпимо, в обе стороны, IIRC. Даже онлайн-сервисы есть для этого. Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2017, 23:00:58 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Гаджимурадов РустамСкрипты, поэтессы и блэкджек не нужны, наверное, а вот текст, картинки и таблицы (что важно) - нужны. Собсно, такие готовые тулзы есть - он хочет сам, программно (хотя не понимаю, зачем ему это). по сути в PDF-е нет ни таблиц ни текста, в основном это расставленные по листу обрывки фраз, отдельные слова и даже буквы. Поэтому ждать от "тулзов" чуда я бы не стал. Но к примеру xpdf может генерить HTML страницу на основе которой вполне можно сделать неплохой генерильщик таблиц. Текст в нём тоже относительно неплохо экспортируется. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.05.2017, 10:21:02 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Попробовать зайти с другого конца -- сделать распознавание PDF-файла из, например, FineReader'а (или другого софта для распознавания сканированных документов). Помнится, у них таблицы автоматически могли определяться. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.05.2017, 11:21:33 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Если пдф не одна сплошная картинка, то можно попробовать CTRL+A -> CTRL+C -> CTRL+V ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.05.2017, 11:56:54 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Dimonka> по сути в PDF-е нет ни таблиц ни текста, в основном это Dimonka> расставленные по листу обрывки фраз, отдельные слова и даже буквы. Это, конечно, очень сильное и смелое заявление. Особенно с учетом стандарта PDF-разметки. Хотя есть и такие, где текст картинкой, конечно. BlackEric> Если пдф не одна сплошная картинка, то можно BlackEric> попробовать CTRL+A -> CTRL+C -> CTRL+V Попробовать-то можно (было бы), но где, *программно"? Не говоря уже о том, что это не сработает толком для картинок и таблиц. JaDi> Попробовать зайти с другого конца -- сделать JaDi> распознавание PDF-файла из, например, FineReader'а Это в прямом смысле с другого конца - гланды через оную. OCR-ы тут нужно в крайнем случае использовать, когда всё картинкой (ибо лишнее звено). Уж лучше готовые тулзы через "ком.строку" вызывать. Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.05.2017, 14:17:29 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Гаджимурадов РустамDimonka> по сути в PDF-е нет ни таблиц ни текста, в основном это Dimonka> расставленные по листу обрывки фраз, отдельные слова и даже буквы. Это, конечно, очень сильное и смелое заявление. Особенно с учетом стандарта PDF-разметки. Хотя есть и такие, где текст картинкой, конечно. Ну и какой элемент форматирования даст тебе понять - это абзац или просто конец предложения? Ну или это таблица, или просто циферки разбросаны по странице? На сколько я понимаю, там разметка касается только позиционирования, расстояний между буквами, словами + шрифты. Зная где расположены буковки надо решать уже самому - относятся ли они к одному предложению или это два разных столбца. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.05.2017, 19:02:30 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
> Ну и какой элемент форматирования Мне щас стандарт цитировать или что? Он же в открытом доступе, IIRC, - открой да глянь. Там все очень похоже на HTML. Как по-твоему генераторы PDF работают? Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.05.2017, 19:42:44 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Гаджимурадов Рустам> Ну и какой элемент форматирования Мне щас стандарт цитировать или что? Он же в открытом доступе, IIRC, - открой да глянь. Там все очень похоже на HTML. Как по-твоему генераторы PDF работают? Смотрел я в стандарт. Он скорее похож на SVG. Там нет ни таблиц, ни параграфов. Просто расположение текста на листе, как в прочем и у генераторов отчётов в PDF. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.05.2017, 19:47:01 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
ХЗ, может, ты и прав, не буду спорить. Апачевский FOP, по крайней мере, не просто расположение генерил, IIRC. https://habrahabr.ru/post/69568/ Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.05.2017, 19:49:06 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
статья - окаменевшее дерьмо мамонта. на новых спецификациях pdf оно не работоспособно. а Рустам неправ, да. Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.05.2017, 13:04:59 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
Мимопроходящий> на новых спецификациях pdf оно не работоспособно. Ты про PDF/A или чего? P.S. Не настаиваю. Если кто-то знает рабочий вариант / описание / статью - кидайте ссылку. Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.05.2017, 13:54:02 |
|
||
|
pdf в word
|
|||
|---|---|---|---|
|
#18+
тут есть несколько человеков (не считая меня), у которых есть самописные парсеры pdf. где-то с полгода назад, не помню кто именно "обрадовал" народ, что в версии 1.5 и старше структура метаданных претерпела изменения. народ пощупал и сказал "ууу... мляяяя..." искать топик лень. Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.05.2017, 14:22:34 |
|
||
|
|

start [/forum/topic.php?fid=58&msg=39454508&tid=2042296]: |
0ms |
get settings: |
7ms |
get forum list: |
17ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
221ms |
get topic data: |
6ms |
get forum data: |
2ms |
get page messages: |
44ms |
get tp. blocked users: |
1ms |
| others: | 196ms |
| total: | 498ms |

| 0 / 0 |
