powered by simpleCommunicator - 2.0.51     © 2025 Programmizd 02
Форумы / Visual Basic [игнор отключен] [закрыт для гостей] / Незамысловатый импорт множества файлов word в excel
17 сообщений из 17, страница 1 из 1
Незамысловатый импорт множества файлов word в excel
    #39183152
Valerievna
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Уважаемые форумчане!
Подскажите как решить простую задачку.
Есть множество файлов doc, docx на английском и русском языках.
Необходимо собрать их в xls на один лист в один столбец для последующей обработки
Причем процесс сбора необходимо сделать такое же как при копировании вручную (к примеру выделенный абзац копируется целиком в одну ячейку).

Пока получилось написать только:
Код: vbnet
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
Sub ImportWordTable()
Dim wdDoc As Object
Dim wdFileName As Variant

wdFileName = Application.GetOpenFilename("Word files (*.doc*),*.doc*", , _
"Browse")

If wdFileName = False Then Exit Sub 

Set wdDoc = GetObject(wdFileName)

End If

Set wdDoc = Nothing

End Sub



Подскажите, если несложно.

Заранее благодарна!
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39183570
Valerievna
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Правда не очень понятно что делать с таблицами(
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39183798
Фотография by-pass
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Valerievna,
авторНеобходимо собрать их в xls на один лист в один столбец для последующей обработки
А что мешает обрабатывать исходные файлы?
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39183868
Valerievna
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
by-pass,

Хотелось бы иметь возможность пользоваться хотя бы фильтрами по содержимому документов (структура doc/x файлов не похожа), так что обрабатывать в word - вариант не самый лучший.
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39184901
Valerievna
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Valerievna,

up
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39184977
Фотография Shocker.Pro
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Valerievna,

up бесполезен, вы не знаете толком, какой результат хотите получить, не выкладываете примеров исходных файлов, не выкладываете примера сборного файла, не задаете конкретных вопросов. Что мы можем вам предложить? Разработать за вас техзадание и написать программу?
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39185978
Valerievna
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Shocker.Pro,

Приношу извинения за некорректно сформулированные условия.

Пример документа и предполагаемого результата приведен в приложении:
тест.doc - исходный данные
тест.xls - результат

Для корректной работы гиперссылок нужно расместить папку тест по пути C:\тест
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39189687
Valerievna
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
up
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39189868
Фотография Shocker.Pro
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
На мой взгляд вы не тем путем идете.

Как понимаю, исходные файлы представляют собой кашу из абсолютно необработанных результатов распознавания бумажных текстов. И требуется превратить эту помойку в еще бОльшую помойку.
Valerievnaхотя бы фильтрами по содержимомуну а толку-то, что в результате фильтрации вы получите какие-то фрагменты исходных документов? Поиск в современном ворде и то будет удобнее, если слить эти файлы в один большой вордовский файл. Попробуйте описать цель и конечный результат, возможно есть более логичные пути.
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39190313
Valerievna
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Shocker.Pro,

Цель заключается в конвертации документов в формате doc в документ в формате xls, пригодный для дальнейшей обработки.

Суть задачи - выделение "осмысленных предложений" ("осмысленное" предложение условно считается абзацем) из документов, присвоение им тегов и дальнейшая работа с этими "осмысленными" предложениями желательно с помощью фильтров.
Проблем с простановкой тегов нет, проблема в корректном импорте.

Как Вы правильно заметили предыдущий документ представляет собой кашу, а предложенная обработка добавляет еще большую кашу.
Для того, чтобы попытаться получить более структурированные данные, думаю, наиболее подходящим будет следующий алгоритм:

1) Поиск заголовков (стили/заголовки),
2) Поиск таблиц и рисунков формирование гиперссылок для них
3) Экспорт в xls для дальнейшей обработки в следующем виде:

Столбец 1Столбец 2Заголовок 1 Заголовок 1Осмысленное предложение 1 ТекстОсмысленное предложение 2 Текст... ...Осмысленное предложение N Текст... ...Заголовок M Заголовок 1Гиперссылка на таблицу 1 Гиперссылка... ...Гиперссылка на рисунок 1 Гиперссылка


P.S. присланный пример является самым "помойным". Часть документов - по сути распознаны из pdf. Подобные документы будут правиться вручную.
К счастью, в большинстве своём документы выглядят как документ в приложении к этому письму.
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39190356
Фотография Shocker.Pro
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ValerievnaК счастью, в большинстве своём документы выглядят как документ в приложении к этому письму.первое, что бросилось в глаза - "При м ечан ия ". Так что считать его образцовым вряд ли стоит )))

Valerievnaпригодный для дальнейшей обработки.вот в этом-то и вопрос - что такое "дальнейшая обработка" - какова конечная цель обработки? Возможно, ее можно достичь иным путем.

Valerievna1) Поиск заголовков (стили/заголовки),
2) Поиск таблиц и рисунков формирование гиперссылок для них
3) Экспорт в xls для дальнейшей обработки в следующем виде:Да, можно написать некую специфическую программу, которая будет это делать - это неблагодарная и муторная работа, вопросов там возникнет больше, чем вы подняли. Вы ее, судя по всему, не напишете, полностью за вас бесплатно - вряд ли кто-то тоже. Поэтому придется выбирать - либо заказать ее, либо упорно и последовательно разбираться и задавать вопросы, читать книги и т.п.
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39191529
Valerievna
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Shocker.Proпервое, что бросилось в глаза - "При м ечан ия ". Так что считать его образцовым вряд ли стоит )))
Подобных оказий не избежать. Править придётся подобные случаи вручную.

Shocker.Proвот в этом-то и вопрос - что такое "дальнейшая обработка" - какова конечная цель обработки? Возможно, ее можно достичь иным путем.
Как уже было написано цель - выделение "осмысленных предложений" (абзацев). Последующее создание хранилища из объединенных документов вида:
Документ 1 осмысленное предложение 1 тегДокумент 1 осмысленное предложение 2 тег... ... тег
и.т.д.
Предложенный алгоритм показался мне оптимальным. А какие могут быть другие пути решения подобной задачи?

И последующее использование подобного хранилища для поиска с помощью фильтров необходимой информации по "осмысленным предложениям"


Shocker.Pro Да, можно написать некую специфическую программу, которая будет это делать - это неблагодарная и муторная работа, вопросов там возникнет больше, чем вы подняли. Вы ее, судя по всему, не напишете, полностью за вас бесплатно - вряд ли кто-то тоже. Поэтому придется выбирать - либо заказать ее, либо упорно и последовательно разбираться и задавать вопросы, читать книги и т.п.
Вариант с заказом - не самый удачный, т.к. разобраться с работой программы для её последующего изменения всё равно нужно.
Можно попробовать вариант с небольшими вознаграждениями за помощь с написанием программы.
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39191575
Фотография Shocker.Pro
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ValerievnaА какие могут быть другие пути решения подобной задачи?

И последующее использование подобного хранилища для поиска с помощью фильтров необходимой информации по "осмысленным предложениям"как я уже говорил выше, для указанной цели достаточно объединить все документы в один файл Ворда и искать в нем, тем более, что там, к примеру, поиск гораздо мощнее.

Кроме того, опять же с отбором документов справляется даже виндовый поиск, не говоря уж о том, что наверняка существует масса программ-хранилищ документов с их индексацией.

Либо поподробнее опишите саму суть поиска, может я что-то упускаю

ValerievnaВариант с заказом - не самый удачный, т.к. разобраться с работой программы для её последующего изменения всё равно нужно.А кто мешает?
ValerievnaМожно попробовать вариант с небольшими вознаграждениями за помощь с написанием программы.Да можно и без всяких вознаграждений, просто, как я уже говорил, нужно будет погрузиться в тему, изучить ее немножко, составить алгоритм и задавать очень конкретные вопросы, на которые можно дать конкретные ответы.
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39191688
Valerievna
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Shocker.Pro как я уже говорил выше, для указанной цели достаточно объединить все документы в один файл Ворда и искать в нем, тем более, что там, к примеру, поиск гораздо мощнее.

В моём понимании основным недостатком поиска в Word для данной задачи это отсутствие возможности быстрого получения выборки в виде таблицы по интересующим словам/словосочетаниям.
К тому же было бы замечательно, если бы подобная выборка имела вид:

Имя документа Id в документе осмысленное предложение поля для тегаВеселый садовод 10 В лесу растут деревья лес/дерево
P.S. задача простановки тегов здесь не стоит

И опять же другим недостатком объединения в word является отсутствие возможности простановки тегов
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39191694
Фотография Shocker.Pro
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну что ж, если предложение типаПри применении в системе менеджмента качества такой подход подчеркивает важность:является самодостаточным и имеет какой-то смысл отдельно от документа - ну может быть. Мне просто это непонятно, недостаточно информации.
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39191791
Valerievna
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Shocker.ProНу что ж, если предложение типаПри применении в системе менеджмента качества такой подход подчеркивает важность:является самодостаточным и имеет какой-то смысл отдельно от документа - ну может быть. Мне просто это непонятно, недостаточно информации.

Для того чтобы приведенный пример имел смысл используется макрос объединения списков, т.е. после обработки ячейка в excel будет имет вид:

При применении ....
a) ...
b) ...
c) ...
d) ...


В общем ваша мысль, безусловно, верна не каждая ячейка с текстом будет представлять собой осмысленное предложение. Важность ячеек будет определяться как раз с помощью заполнение тегов (в некотором смысле это будет семантическим анализом)
...
Рейтинг: 0 / 0
Незамысловатый импорт множества файлов word в excel
    #39191842
Фотография Shocker.Pro
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ValerievnaДля того чтобы приведенный пример имел смысл используется макрос объединения списков, т.е. после обработки ячейка в excel будет имет вид:ну, по идее, это можно делать прямо во время преобразования.
...
Рейтинг: 0 / 0
17 сообщений из 17, страница 1 из 1
Форумы / Visual Basic [игнор отключен] [закрыт для гостей] / Незамысловатый импорт множества файлов word в excel
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]