Идентификация фрагментов документа на основании паттерна / Microsoft Office

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Microsoft Office [игнор отключен] [закрыт для гостей] / Идентификация фрагментов документа на основании паттерна

21 сообщений из 21, страница 1 из 1

Идентификация фрагментов документа на основании паттерна

#37423775

Youra Polishuk

Участник

Сообщения: 417

Рейтинг: 0 / 0

Добрый день.

Мне нужно решить такую задачу.
Есть коллекция документов Word в которых содержится описание технологического объекта.
Структура документов похожа, но может немного отличаться. Например: есть таблица со значениями
параметров работы объекта по датам. Количество записей в таблице отличается в зависимости
от времени работы объекта. Если объект останавливался, то в документе присутствует
текст с описанием причины остановки, а после этого опять стандартная таблица с параметрами
работы по времени.
Есть исходные примеры (паттерны) с выделенными фрагментами информации в документе. Например, с помощью
цвета. Мне нужно аналогично раскрасить остальные документы. Т.е. по аналогии идентифицировать фрагменты
в остальных документах.

Тут напрашивается использование нейросетей или чего-нибудь еще.
Мне нужно наиболее простое, но работающее решение, которое должно быть как бы универсальным, т.е. его
можно было адаптировать для решения такой же задачи с другими видами документов.

Проблема в том, что выделяемые фрагменты в документе могут быть вложены в друг друга.
Например:

Код: plaintext

<работа>.....<дебит>1000</дебит> ..... <дебит>980</дебит></работа>.

О условиях решения данной задачи договоримся.
Пишите на: Youra_Polishuk@bk.ru

...

Рейтинг:

0 / 0

03.09.2011, 11:38

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37423787

Ципихович Эндрю

Участник

Откуда: Челябинская область

Сообщения: 3 980

Рейтинг: 0 / 0

Youra Polishuk,
в документа Ворд строго 1 таблица?
Прикрепите документ

...

Рейтинг:

0 / 0

03.09.2011, 12:08

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37423858

Youra Polishuk

Участник

Сообщения: 417

Рейтинг: 0 / 0

Ципихович Эндрю,

Нет. Таблиц будет столько сколько раз будет остановлен технологический объект.
Решении должно быть универсальным, чтобы такую же разметку делать и для
других документов. Естественно с настройкой. Т.е. натренировал прогу на новом
виде документов и она стала размечать их содержимое.

...

Рейтинг:

0 / 0

03.09.2011, 14:24

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37425495

exp98

Участник

Сообщения: 2 390

Рейтинг: 0 / 0

Позвольте высказать мнение эксперта, чтобы остеречь некоторые горячие головы) МОфис и нейросети - вещи несовместимые. С другой стороны Вы ожидаете универсального решения. Универсальным он может быть лишь настолько, насколько будет специфицирована задача. Шаг задачи в сторону от спецификации, и вся универсальность поползла ...

Распознавание паттернов в общем случае, в т.ч. и нейросетевыми метододами строится явно или неявно по одному базовому принципу. Готовится БД эталонов, определяется набор преобразований, которми допустимо видоизменять эталоны. После чего поступающий паттерн сравнивается с полученными эталонными вариантами и находится "максимально близкий" (критерий близости подбирается). При некоторых условиях можно динамически модифицировать эталонную БД вместе с правилами её преобразования. Приготовьтесь, что будут присутствовать ошибки распознавания. Это автору.

Возвращаясь к задаче. Если вольность в структуре документов высокая, программа будет похожа на действия поисковика - может Вам в Яндекс обратиться? Если варианты внешнего вида паттернов ограничены и достаточно просты (Вас просили озвучить эти правила), возможно достаточно обойтись сбором статистики на все возможные комбинации (например можно определить комбинации в виде правил). Про универсальность решения - см. выше. Как-то так. А коллегам - дерзайте!

...

Рейтинг:

0 / 0

05.09.2011, 15:42

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37427953

Youra Polishuk

Участник

Сообщения: 417

Рейтинг: 0 / 0

exp98,

Спасибо за советы.
Я это знаю.
Моя задача заключается в следующем. Я размечаю содержимое однотипных документов
тегами XSD схемы. Нужно сделать это автоматически. Документы очень похожи, так как содержат
описание технологического объекта. Разница в порядке слов и количестве записей в таблицах, а
так же количество таблиц в документе. Можно сказать задача должна быть решена для почти идеальных
документов. Я мог бы сделать это с помощью программы, но это будет выглядеть плоховато.
Мне нужен как бы универсальный алгоритм. Я думаю, что нейросеть подходит.

...

Рейтинг:

0 / 0

06.09.2011, 20:42

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37427956

Ципихович Эндрю

Участник

Откуда: Челябинская область

Сообщения: 3 980

Рейтинг: 0 / 0

Youra Polishuk,
Я мог бы сделать это с помощью программы, но это будет выглядеть плоховато.
а чем же не плоховато??
Как Вы лодку назовёте так она и поплывёт, уже бы выложили файл-пример

...

Рейтинг:

0 / 0

06.09.2011, 20:51

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37428440

Youra Polishuk

Участник

Сообщения: 417

Рейтинг: 0 / 0

Ципихович Эндрю,

Приложил пример. Чтобы увидеть теги нужно в ворде нажать Ctrl+Shift+X.

...

Рейтинг:

0 / 0

07.09.2011, 10:38

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37430988

exp98

Участник

Сообщения: 2 390

Рейтинг: 0 / 0

Youra Polishuk,
универсальный алгоритм для Вашей задачи - транслятор программного кода. Вот в этом стиле и нужно писать программу, а нейросети, ну, Вы видимо понаслышке знаете. Тем более, что в основном выделять нужно только числа, и лишь по месту их расположения окаймлять эти места дополнительными тегами. Формально описываете грамматику своей задачи и по ней строите транслятор.
Подумайте, как транслятор распознаёт конструкцию вида

for i = xxx begin s = 34; dd= 55 end else /* переходим на вторую часть */ goto metka1 end for

...

Рейтинг:

0 / 0

08.09.2011, 15:47

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37431554

Youra Polishuk

Участник

Сообщения: 417

Рейтинг: 0 / 0

exp98,

Спасибо за советы.
Я понял Ваш вариант решения, но думаю, что сам я не справлюсь с написанием такого транслятора.

...

Рейтинг:

0 / 0

08.09.2011, 19:54

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37432234

exp98

Участник

Сообщения: 2 390

Рейтинг: 0 / 0

А попытка - не пытка (с) Главное, не надо сразу бросаться писать if-else и т.д. Немного подумать, почитать как это делается в принципе ... Лет 15-17 назад я с бухты барахты кому-то курсовую или лаб написал. Нужно было кажется переводить тексты пограмм на Паскале в тексты на Си, коряво, но написал, меньше чем за неделю. Рекурсивные вызовы очень помогают) А уж теперь наверняка об этом в инете есть.

Моё мнение, что Ваша задача распадается на 3 отдельные части, коорые можно создавать независимо:
-Работа с текстом и объектами Ворда
-составление формальной грамматики, т.е. допустимых правил компоновки текстов
-собственно программа по разбору грамматики и отображению текста в иерархическую структуру

...

Рейтинг:

0 / 0

09.09.2011, 11:09

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37433215

R Dmitry

Участник

Откуда: Минск

Сообщения: 395

Рейтинг: 0 / 0

exp98,
Для себя я у же сделал :), алгоритм примерно такой, каждому тегу соответсвует набор определенных условий, находим условие, ставим тег, и так со всеми тегами схемы :)
предложение отправил по почте...........

...

Рейтинг:

0 / 0

09.09.2011, 17:21

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37433276

Ципихович Эндрю

Участник

Откуда: Челябинская область

Сообщения: 3 980

Рейтинг: 0 / 0

R Dmitry, смарт-тегами попахивает, Вы лично смарт теги делали??

...

Рейтинг:

0 / 0

09.09.2011, 17:52

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37433285

R Dmitry

Участник

Откуда: Минск

Сообщения: 395

Рейтинг: 0 / 0

Ципихович Эндрю,

зачем их делать если есть готовая схема ???

...

Рейтинг:

0 / 0

09.09.2011, 18:01

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37433296

Ципихович Эндрю

Участник

Откуда: Челябинская область

Сообщения: 3 980

Рейтинг: 0 / 0

R Dmitry, Вы лично хоть раз этой схемой пользовались, получалось??

...

Рейтинг:

0 / 0

09.09.2011, 18:10

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37433579

R Dmitry

Участник

Откуда: Минск

Сообщения: 395

Рейтинг: 0 / 0

Ципихович Эндрю,

Не знал бы, не писал... .

...

Рейтинг:

0 / 0

09.09.2011, 22:59

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37433604

Shocker.Pro

Участник

Откуда: ->|<- :адуктО

Сообщения: 23 134

Рейтинг: 0 / 0

Ципихович ЭндрюR Dmitry, Вы лично хоть раз этой схемой пользовались, получалось??

Бабулька в автобусе:
- Милок, ты на следующей выходишь?
- Да
- А те, кто перед тобой, выходят?
- Да
- А ты их спрашивал?
- Да
- И что они ответили?

...

Рейтинг:

0 / 0

09.09.2011, 23:21

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37433763

Ципихович Эндрю

Участник

Откуда: Челябинская область

Сообщения: 3 980

Рейтинг: 0 / 0

R Dmitry, ОК, я Вас за язык не тянул, создам свою ветку

...

Рейтинг:

0 / 0

10.09.2011, 11:06

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37433799

R Dmitry

Участник

Откуда: Минск

Сообщения: 395

Рейтинг: 0 / 0

Ципихович ЭндрюR Dmitry, ОК, я Вас за язык не тянул, создам свою ветку

Вам впору свой форум создать

а делается это совсем просто, примерно так, схема старт топика

Код: plaintext

Selection.WholeStory
ActiveDocument.XMLNodes.Add "Root", "urn:well"

...

Рейтинг:

0 / 0

10.09.2011, 12:27

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37433806

Ципихович Эндрю

Участник

Откуда: Челябинская область

Сообщения: 3 980

Рейтинг: 0 / 0

R Dmitry, может не будем мешать автору, обойдёмся без паттерна и перейдём в тот топик
ActiveDocument.XMLNodes.Add "Root", "urn:well"
'получаю ошибку 6168 перед применением элемента необходимо присоединить его схему к документу
'что за ересь?? Для чего эта строка??

...

Рейтинг:

0 / 0

10.09.2011, 12:37

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37433811

R Dmitry

Участник

Откуда: Минск

Сообщения: 395

Рейтинг: 0 / 0

Ципихович Эндрю,

читайте внимательней 11258054 , и вроде по русски написано ??
"перед применением элемента необходимо присоединить его схему к документу"

...

Рейтинг:

0 / 0

10.09.2011, 12:46

| Ответить | Цитировать | Написать

Идентификация фрагментов документа на основании паттерна

#37436736

exp98

Участник

Сообщения: 2 390

Рейтинг: 0 / 0

R Dmitry, как же я отстал от жизни !
П.с.
и не думал конкурировать)

...

Рейтинг:

0 / 0

12.09.2011, 17:25

| Ответить | Цитировать | Написать

21 сообщений из 21, страница 1 из 1

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=61&msg=37425495&tid=2176508]:	0ms
get settings:	6ms
get forum list:	20ms
check forum access:	3ms
check topic access:	3ms
track hit:	141ms
get topic data:	10ms
get forum data:	2ms
get page messages:	78ms
get tp. blocked users:	2ms
others:	214ms

total:	479ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы