|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Уважаемые форумчане! Подскажите как решить простую задачку. Есть множество файлов doc, docx на английском и русском языках. Необходимо собрать их в xls на один лист в один столбец для последующей обработки Причем процесс сбора необходимо сделать такое же как при копировании вручную (к примеру выделенный абзац копируется целиком в одну ячейку). Пока получилось написать только: Код: vbnet 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16.
Подскажите, если несложно. Заранее благодарна! ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2016, 01:10 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Правда не очень понятно что делать с таблицами( ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2016, 12:29 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Valerievna, авторНеобходимо собрать их в xls на один лист в один столбец для последующей обработки А что мешает обрабатывать исходные файлы? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2016, 14:45 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
by-pass, Хотелось бы иметь возможность пользоваться хотя бы фильтрами по содержимому документов (структура doc/x файлов не похожа), так что обрабатывать в word - вариант не самый лучший. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2016, 15:27 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Valerievna, up ... |
|||
:
Нравится:
Не нравится:
|
|||
03.03.2016, 13:57 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Valerievna, up бесполезен, вы не знаете толком, какой результат хотите получить, не выкладываете примеров исходных файлов, не выкладываете примера сборного файла, не задаете конкретных вопросов. Что мы можем вам предложить? Разработать за вас техзадание и написать программу? ... |
|||
:
Нравится:
Не нравится:
|
|||
03.03.2016, 14:37 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Shocker.Pro, Приношу извинения за некорректно сформулированные условия. Пример документа и предполагаемого результата приведен в приложении: тест.doc - исходный данные тест.xls - результат Для корректной работы гиперссылок нужно расместить папку тест по пути C:\тест ... |
|||
:
Нравится:
Не нравится:
|
|||
04.03.2016, 14:58 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
up ... |
|||
:
Нравится:
Не нравится:
|
|||
11.03.2016, 10:11 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
На мой взгляд вы не тем путем идете. Как понимаю, исходные файлы представляют собой кашу из абсолютно необработанных результатов распознавания бумажных текстов. И требуется превратить эту помойку в еще бОльшую помойку. Valerievnaхотя бы фильтрами по содержимомуну а толку-то, что в результате фильтрации вы получите какие-то фрагменты исходных документов? Поиск в современном ворде и то будет удобнее, если слить эти файлы в один большой вордовский файл. Попробуйте описать цель и конечный результат, возможно есть более логичные пути. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.03.2016, 12:29 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Shocker.Pro, Цель заключается в конвертации документов в формате doc в документ в формате xls, пригодный для дальнейшей обработки. Суть задачи - выделение "осмысленных предложений" ("осмысленное" предложение условно считается абзацем) из документов, присвоение им тегов и дальнейшая работа с этими "осмысленными" предложениями желательно с помощью фильтров. Проблем с простановкой тегов нет, проблема в корректном импорте. Как Вы правильно заметили предыдущий документ представляет собой кашу, а предложенная обработка добавляет еще большую кашу. Для того, чтобы попытаться получить более структурированные данные, думаю, наиболее подходящим будет следующий алгоритм: 1) Поиск заголовков (стили/заголовки), 2) Поиск таблиц и рисунков формирование гиперссылок для них 3) Экспорт в xls для дальнейшей обработки в следующем виде: Столбец 1Столбец 2Заголовок 1 Заголовок 1Осмысленное предложение 1 ТекстОсмысленное предложение 2 Текст... ...Осмысленное предложение N Текст... ...Заголовок M Заголовок 1Гиперссылка на таблицу 1 Гиперссылка... ...Гиперссылка на рисунок 1 Гиперссылка P.S. присланный пример является самым "помойным". Часть документов - по сути распознаны из pdf. Подобные документы будут правиться вручную. К счастью, в большинстве своём документы выглядят как документ в приложении к этому письму. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.03.2016, 17:42 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
ValerievnaК счастью, в большинстве своём документы выглядят как документ в приложении к этому письму.первое, что бросилось в глаза - "При м ечан ия ". Так что считать его образцовым вряд ли стоит ))) Valerievnaпригодный для дальнейшей обработки.вот в этом-то и вопрос - что такое "дальнейшая обработка" - какова конечная цель обработки? Возможно, ее можно достичь иным путем. Valerievna1) Поиск заголовков (стили/заголовки), 2) Поиск таблиц и рисунков формирование гиперссылок для них 3) Экспорт в xls для дальнейшей обработки в следующем виде:Да, можно написать некую специфическую программу, которая будет это делать - это неблагодарная и муторная работа, вопросов там возникнет больше, чем вы подняли. Вы ее, судя по всему, не напишете, полностью за вас бесплатно - вряд ли кто-то тоже. Поэтому придется выбирать - либо заказать ее, либо упорно и последовательно разбираться и задавать вопросы, читать книги и т.п. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.03.2016, 19:03 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Shocker.Proпервое, что бросилось в глаза - "При м ечан ия ". Так что считать его образцовым вряд ли стоит ))) Подобных оказий не избежать. Править придётся подобные случаи вручную. Shocker.Proвот в этом-то и вопрос - что такое "дальнейшая обработка" - какова конечная цель обработки? Возможно, ее можно достичь иным путем. Как уже было написано цель - выделение "осмысленных предложений" (абзацев). Последующее создание хранилища из объединенных документов вида: Документ 1 осмысленное предложение 1 тегДокумент 1 осмысленное предложение 2 тег... ... тег и.т.д. Предложенный алгоритм показался мне оптимальным. А какие могут быть другие пути решения подобной задачи? И последующее использование подобного хранилища для поиска с помощью фильтров необходимой информации по "осмысленным предложениям" Shocker.Pro Да, можно написать некую специфическую программу, которая будет это делать - это неблагодарная и муторная работа, вопросов там возникнет больше, чем вы подняли. Вы ее, судя по всему, не напишете, полностью за вас бесплатно - вряд ли кто-то тоже. Поэтому придется выбирать - либо заказать ее, либо упорно и последовательно разбираться и задавать вопросы, читать книги и т.п. Вариант с заказом - не самый удачный, т.к. разобраться с работой программы для её последующего изменения всё равно нужно. Можно попробовать вариант с небольшими вознаграждениями за помощь с написанием программы. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.03.2016, 16:11 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
ValerievnaА какие могут быть другие пути решения подобной задачи? И последующее использование подобного хранилища для поиска с помощью фильтров необходимой информации по "осмысленным предложениям"как я уже говорил выше, для указанной цели достаточно объединить все документы в один файл Ворда и искать в нем, тем более, что там, к примеру, поиск гораздо мощнее. Кроме того, опять же с отбором документов справляется даже виндовый поиск, не говоря уж о том, что наверняка существует масса программ-хранилищ документов с их индексацией. Либо поподробнее опишите саму суть поиска, может я что-то упускаю ValerievnaВариант с заказом - не самый удачный, т.к. разобраться с работой программы для её последующего изменения всё равно нужно.А кто мешает? ValerievnaМожно попробовать вариант с небольшими вознаграждениями за помощь с написанием программы.Да можно и без всяких вознаграждений, просто, как я уже говорил, нужно будет погрузиться в тему, изучить ее немножко, составить алгоритм и задавать очень конкретные вопросы, на которые можно дать конкретные ответы. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.03.2016, 16:55 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Shocker.Pro как я уже говорил выше, для указанной цели достаточно объединить все документы в один файл Ворда и искать в нем, тем более, что там, к примеру, поиск гораздо мощнее. В моём понимании основным недостатком поиска в Word для данной задачи это отсутствие возможности быстрого получения выборки в виде таблицы по интересующим словам/словосочетаниям. К тому же было бы замечательно, если бы подобная выборка имела вид: Имя документа Id в документе осмысленное предложение поля для тегаВеселый садовод 10 В лесу растут деревья лес/дерево P.S. задача простановки тегов здесь не стоит И опять же другим недостатком объединения в word является отсутствие возможности простановки тегов ... |
|||
:
Нравится:
Не нравится:
|
|||
14.03.2016, 18:52 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Ну что ж, если предложение типаПри применении в системе менеджмента качества такой подход подчеркивает важность:является самодостаточным и имеет какой-то смысл отдельно от документа - ну может быть. Мне просто это непонятно, недостаточно информации. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.03.2016, 18:58 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
Shocker.ProНу что ж, если предложение типаПри применении в системе менеджмента качества такой подход подчеркивает важность:является самодостаточным и имеет какой-то смысл отдельно от документа - ну может быть. Мне просто это непонятно, недостаточно информации. Для того чтобы приведенный пример имел смысл используется макрос объединения списков, т.е. после обработки ячейка в excel будет имет вид: При применении .... a) ... b) ... c) ... d) ... В общем ваша мысль, безусловно, верна не каждая ячейка с текстом будет представлять собой осмысленное предложение. Важность ячеек будет определяться как раз с помощью заполнение тегов (в некотором смысле это будет семантическим анализом) ... |
|||
:
Нравится:
Не нравится:
|
|||
14.03.2016, 21:43 |
|
Незамысловатый импорт множества файлов word в excel
|
|||
---|---|---|---|
#18+
ValerievnaДля того чтобы приведенный пример имел смысл используется макрос объединения списков, т.е. после обработки ячейка в excel будет имет вид:ну, по идее, это можно делать прямо во время преобразования. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.03.2016, 23:57 |
|
|
start [/forum/topic.php?fid=60&msg=39183152&tid=2155601]: |
0ms |
get settings: |
10ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
67ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
53ms |
get tp. blocked users: |
1ms |
others: | 308ms |
total: | 477ms |
0 / 0 |