Гость
Форумы / Visual Basic [игнор отключен] [закрыт для гостей] / Незамысловатый импорт множества файлов word в excel / 17 сообщений из 17, страница 1 из 1
02.03.2016, 01:10
    #39183152
Valerievna
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Уважаемые форумчане!
Подскажите как решить простую задачку.
Есть множество файлов doc, docx на английском и русском языках.
Необходимо собрать их в xls на один лист в один столбец для последующей обработки
Причем процесс сбора необходимо сделать такое же как при копировании вручную (к примеру выделенный абзац копируется целиком в одну ячейку).

Пока получилось написать только:
Код: vbnet
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
Sub ImportWordTable()
Dim wdDoc As Object
Dim wdFileName As Variant

wdFileName = Application.GetOpenFilename("Word files (*.doc*),*.doc*", , _
"Browse")

If wdFileName = False Then Exit Sub 

Set wdDoc = GetObject(wdFileName)

End If

Set wdDoc = Nothing

End Sub



Подскажите, если несложно.

Заранее благодарна!
...
Рейтинг: 0 / 0
02.03.2016, 12:29
    #39183570
Valerievna
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Правда не очень понятно что делать с таблицами(
...
Рейтинг: 0 / 0
02.03.2016, 14:45
    #39183798
by-pass
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Valerievna,
авторНеобходимо собрать их в xls на один лист в один столбец для последующей обработки
А что мешает обрабатывать исходные файлы?
...
Рейтинг: 0 / 0
02.03.2016, 15:27
    #39183868
Valerievna
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
by-pass,

Хотелось бы иметь возможность пользоваться хотя бы фильтрами по содержимому документов (структура doc/x файлов не похожа), так что обрабатывать в word - вариант не самый лучший.
...
Рейтинг: 0 / 0
03.03.2016, 13:57
    #39184901
Valerievna
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Valerievna,

up
...
Рейтинг: 0 / 0
03.03.2016, 14:37
    #39184977
Shocker.Pro
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Valerievna,

up бесполезен, вы не знаете толком, какой результат хотите получить, не выкладываете примеров исходных файлов, не выкладываете примера сборного файла, не задаете конкретных вопросов. Что мы можем вам предложить? Разработать за вас техзадание и написать программу?
...
Рейтинг: 0 / 0
04.03.2016, 14:58
    #39185978
Valerievna
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Shocker.Pro,

Приношу извинения за некорректно сформулированные условия.

Пример документа и предполагаемого результата приведен в приложении:
тест.doc - исходный данные
тест.xls - результат

Для корректной работы гиперссылок нужно расместить папку тест по пути C:\тест
...
Рейтинг: 0 / 0
11.03.2016, 10:11
    #39189687
Valerievna
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
up
...
Рейтинг: 0 / 0
11.03.2016, 12:29
    #39189868
Shocker.Pro
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
На мой взгляд вы не тем путем идете.

Как понимаю, исходные файлы представляют собой кашу из абсолютно необработанных результатов распознавания бумажных текстов. И требуется превратить эту помойку в еще бОльшую помойку.
Valerievnaхотя бы фильтрами по содержимомуну а толку-то, что в результате фильтрации вы получите какие-то фрагменты исходных документов? Поиск в современном ворде и то будет удобнее, если слить эти файлы в один большой вордовский файл. Попробуйте описать цель и конечный результат, возможно есть более логичные пути.
...
Рейтинг: 0 / 0
11.03.2016, 17:42
    #39190313
Valerievna
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Shocker.Pro,

Цель заключается в конвертации документов в формате doc в документ в формате xls, пригодный для дальнейшей обработки.

Суть задачи - выделение "осмысленных предложений" ("осмысленное" предложение условно считается абзацем) из документов, присвоение им тегов и дальнейшая работа с этими "осмысленными" предложениями желательно с помощью фильтров.
Проблем с простановкой тегов нет, проблема в корректном импорте.

Как Вы правильно заметили предыдущий документ представляет собой кашу, а предложенная обработка добавляет еще большую кашу.
Для того, чтобы попытаться получить более структурированные данные, думаю, наиболее подходящим будет следующий алгоритм:

1) Поиск заголовков (стили/заголовки),
2) Поиск таблиц и рисунков формирование гиперссылок для них
3) Экспорт в xls для дальнейшей обработки в следующем виде:

Столбец 1Столбец 2Заголовок 1 Заголовок 1Осмысленное предложение 1 ТекстОсмысленное предложение 2 Текст... ...Осмысленное предложение N Текст... ...Заголовок M Заголовок 1Гиперссылка на таблицу 1 Гиперссылка... ...Гиперссылка на рисунок 1 Гиперссылка


P.S. присланный пример является самым "помойным". Часть документов - по сути распознаны из pdf. Подобные документы будут правиться вручную.
К счастью, в большинстве своём документы выглядят как документ в приложении к этому письму.
...
Рейтинг: 0 / 0
11.03.2016, 19:03
    #39190356
Shocker.Pro
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
ValerievnaК счастью, в большинстве своём документы выглядят как документ в приложении к этому письму.первое, что бросилось в глаза - "При м ечан ия ". Так что считать его образцовым вряд ли стоит )))

Valerievnaпригодный для дальнейшей обработки.вот в этом-то и вопрос - что такое "дальнейшая обработка" - какова конечная цель обработки? Возможно, ее можно достичь иным путем.

Valerievna1) Поиск заголовков (стили/заголовки),
2) Поиск таблиц и рисунков формирование гиперссылок для них
3) Экспорт в xls для дальнейшей обработки в следующем виде:Да, можно написать некую специфическую программу, которая будет это делать - это неблагодарная и муторная работа, вопросов там возникнет больше, чем вы подняли. Вы ее, судя по всему, не напишете, полностью за вас бесплатно - вряд ли кто-то тоже. Поэтому придется выбирать - либо заказать ее, либо упорно и последовательно разбираться и задавать вопросы, читать книги и т.п.
...
Рейтинг: 0 / 0
14.03.2016, 16:11
    #39191529
Valerievna
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Shocker.Proпервое, что бросилось в глаза - "При м ечан ия ". Так что считать его образцовым вряд ли стоит )))
Подобных оказий не избежать. Править придётся подобные случаи вручную.

Shocker.Proвот в этом-то и вопрос - что такое "дальнейшая обработка" - какова конечная цель обработки? Возможно, ее можно достичь иным путем.
Как уже было написано цель - выделение "осмысленных предложений" (абзацев). Последующее создание хранилища из объединенных документов вида:
Документ 1 осмысленное предложение 1 тегДокумент 1 осмысленное предложение 2 тег... ... тег
и.т.д.
Предложенный алгоритм показался мне оптимальным. А какие могут быть другие пути решения подобной задачи?

И последующее использование подобного хранилища для поиска с помощью фильтров необходимой информации по "осмысленным предложениям"


Shocker.Pro Да, можно написать некую специфическую программу, которая будет это делать - это неблагодарная и муторная работа, вопросов там возникнет больше, чем вы подняли. Вы ее, судя по всему, не напишете, полностью за вас бесплатно - вряд ли кто-то тоже. Поэтому придется выбирать - либо заказать ее, либо упорно и последовательно разбираться и задавать вопросы, читать книги и т.п.
Вариант с заказом - не самый удачный, т.к. разобраться с работой программы для её последующего изменения всё равно нужно.
Можно попробовать вариант с небольшими вознаграждениями за помощь с написанием программы.
...
Рейтинг: 0 / 0
14.03.2016, 16:55
    #39191575
Shocker.Pro
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
ValerievnaА какие могут быть другие пути решения подобной задачи?

И последующее использование подобного хранилища для поиска с помощью фильтров необходимой информации по "осмысленным предложениям"как я уже говорил выше, для указанной цели достаточно объединить все документы в один файл Ворда и искать в нем, тем более, что там, к примеру, поиск гораздо мощнее.

Кроме того, опять же с отбором документов справляется даже виндовый поиск, не говоря уж о том, что наверняка существует масса программ-хранилищ документов с их индексацией.

Либо поподробнее опишите саму суть поиска, может я что-то упускаю

ValerievnaВариант с заказом - не самый удачный, т.к. разобраться с работой программы для её последующего изменения всё равно нужно.А кто мешает?
ValerievnaМожно попробовать вариант с небольшими вознаграждениями за помощь с написанием программы.Да можно и без всяких вознаграждений, просто, как я уже говорил, нужно будет погрузиться в тему, изучить ее немножко, составить алгоритм и задавать очень конкретные вопросы, на которые можно дать конкретные ответы.
...
Рейтинг: 0 / 0
14.03.2016, 18:52
    #39191688
Valerievna
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Shocker.Pro как я уже говорил выше, для указанной цели достаточно объединить все документы в один файл Ворда и искать в нем, тем более, что там, к примеру, поиск гораздо мощнее.

В моём понимании основным недостатком поиска в Word для данной задачи это отсутствие возможности быстрого получения выборки в виде таблицы по интересующим словам/словосочетаниям.
К тому же было бы замечательно, если бы подобная выборка имела вид:

Имя документа Id в документе осмысленное предложение поля для тегаВеселый садовод 10 В лесу растут деревья лес/дерево
P.S. задача простановки тегов здесь не стоит

И опять же другим недостатком объединения в word является отсутствие возможности простановки тегов
...
Рейтинг: 0 / 0
14.03.2016, 18:58
    #39191694
Shocker.Pro
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Ну что ж, если предложение типаПри применении в системе менеджмента качества такой подход подчеркивает важность:является самодостаточным и имеет какой-то смысл отдельно от документа - ну может быть. Мне просто это непонятно, недостаточно информации.
...
Рейтинг: 0 / 0
14.03.2016, 21:43
    #39191791
Valerievna
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
Shocker.ProНу что ж, если предложение типаПри применении в системе менеджмента качества такой подход подчеркивает важность:является самодостаточным и имеет какой-то смысл отдельно от документа - ну может быть. Мне просто это непонятно, недостаточно информации.

Для того чтобы приведенный пример имел смысл используется макрос объединения списков, т.е. после обработки ячейка в excel будет имет вид:

При применении ....
a) ...
b) ...
c) ...
d) ...


В общем ваша мысль, безусловно, верна не каждая ячейка с текстом будет представлять собой осмысленное предложение. Важность ячеек будет определяться как раз с помощью заполнение тегов (в некотором смысле это будет семантическим анализом)
...
Рейтинг: 0 / 0
14.03.2016, 23:57
    #39191842
Shocker.Pro
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Незамысловатый импорт множества файлов word в excel
ValerievnaДля того чтобы приведенный пример имел смысл используется макрос объединения списков, т.е. после обработки ячейка в excel будет имет вид:ну, по идее, это можно делать прямо во время преобразования.
...
Рейтинг: 0 / 0
Форумы / Visual Basic [игнор отключен] [закрыт для гостей] / Незамысловатый импорт множества файлов word в excel / 17 сообщений из 17, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]