Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Для любителей поворчать ... / 25 сообщений из 44, страница 1 из 2
17.07.2016, 20:41
    #39275268
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Прелюдия.

Сегодня /мои руки не для скуки/ решил мельком взглянуть на http://www.ecma-international.org/publications/standards/Ecma-376.htm Office Open XML File Formats.
Так вот среди файликов был fi000005.docx /22MB/. Это ECMA-376 3rd ed.
Попробывал открыть его в 10-м Microsoft Office, OpenOffice 4.1.1 и LibreOffice 5.1.

Результат?
Врагу не пожелал бы.

Microsoft Office грузит его /несколько минут/, а потом впадает в "спячку" /видно что-то там рендерит/.
Но ни чего не сообщает. В окне не показывается ни одной строки. И только минут через 15 если у пользователя хватит терпения он его увидит ...

OpenOffice 4.1.1 и LibreOffice 5.1. - мрак.
Отхватывают при открытии документа 860 Mb и грузят ужасно долго.

И на закуску.

Ну да ладно думаю ... мало ли бывает ...
Подумал сначала, что причина медленной загрузки xml ...
Вытащил из docx document.xml /83Mb/.
Понадобилось мне подсчитать количество символов "<" в нем.
Открыл его с помощью текстового редактора FAR и выполнил команду замены "<" на "1".
Так вот эта операция грузит ядро процессора на 100% и похоже не сможет завершиться до Нового Года ...!

Эпилог.

"В то время как космические корабли бороздят просторы вселенной ..."

PS: Вот с какими чудными программами и архитектурами программирования мы имеем дело ...
...
Рейтинг: 0 / 0
17.07.2016, 21:19
    #39275273
Dima T
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
В эпоху засилья опенофиса (или как он там сейчас зовется) решили пойти простым путем, сделать самодельный генератор, с вордом проблем нет, RTF легко генерится, а с экселем сложнее. Сделали генератор BIFF4, Excel-95 если не путаю, этот формат довольно прост в реализации, более поздние намного сложнее. Но MS как обычно нагадил, эти файлы открываются экселем, но в readonly режиме с руганью что очень старый формат. Пока живем так, но надо что-то менять.
...
Рейтинг: 0 / 0
17.07.2016, 21:25
    #39275278
Изопропил
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Dima TПока живем так, но надо что-то менять.
BIFF8 писать, какие проблемы
...
Рейтинг: 0 / 0
17.07.2016, 21:43
    #39275281
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Владимир2012Microsoft Office грузит его /несколько минут/, а потом впадает в "спячку" /видно что-то там рендерит/.Скорее всего причина такой "задумчимости" 10-м Microsoft Office, OpenOffice 4.1.1 и LibreOffice 5.1. состоит в том, что в docx имеется папка media, содержащая 1895 /из них png 1763 файла/.
Так вот все это добро нужно прочитать, открыть, ....
Но скорее всего основная причина - программная архитектура самого word /в частности ее реализации/.
...
Рейтинг: 0 / 0
17.07.2016, 22:05
    #39275289
Dima T
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Генери RTF. Элементарный формат.
...
Рейтинг: 0 / 0
17.07.2016, 22:14
    #39275292
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Dima TГенери RTF. Элементарный формат.Ни чего не утверждаю и ни чему не призываю ...
Что интересно.
Тот же документ в формате pdf открывается мгновенно /а ведь он также содержит в себе 1895 изображений/ ...
...
Рейтинг: 0 / 0
17.07.2016, 22:27
    #39275297
Изопропил
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Владимир2012документ в формате pdf изначально заточен для печати и показа (postscript фактически), разбит жёстко на страницы - ничего удивителного
...
Рейтинг: 0 / 0
17.07.2016, 22:36
    #39275302
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
ИзопропилВладимир2012документ в формате pdf изначально заточен для печати и показа (postscript фактически), разбит жёстко на страницы - ничего удивителногоКонечно.
Но программа читаем 41Mb файл, рендерит его содержимое ... и отображает мгновенно!

PS:
"Так чем батенька pdf лучше docx?
Лучше чем."
...
Рейтинг: 0 / 0
17.07.2016, 23:00
    #39275307
Изопропил
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Владимир2012"Так чем батенька pdf лучше docx?
Лучше чем."
ни о чём. да ладно.
...
Рейтинг: 0 / 0
17.07.2016, 23:07
    #39275308
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Изопропилни о чём. да ладно.Надеюсь мои ответы вы не приняли за "чистую монету"?

PS: Sorry.
Пошутил не много.
...
Рейтинг: 0 / 0
18.07.2016, 10:19
    #39275421
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Мне стыдно!
Оказывается самый большой ворчун это - я!
...
Рейтинг: 0 / 0
18.07.2016, 11:06
    #39275465
tanglir
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Владимир2012, "не рой яму другому..." :)

Владимир2012Так вот среди файликов был fi000005.docx /22MB/.где именно?
...
Рейтинг: 0 / 0
18.07.2016, 11:17
    #39275478
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
tanglirгде именно?С пол годика назад он там был ...
У меня на диске он имеется.
Вопрос куда его выложить /сам то ни какими google drive ... не пользуюсь/?
Так что если интерес к этому файлику останется, то выложу его сразу как только ...
...
Рейтинг: 0 / 0
18.07.2016, 11:24
    #39275486
tanglir
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Владимир2012,

ifolder.ru с полгода назад ещё был нормальный(неограниченный объём безрегистрациииэсэмэс), не знаю как там сейчас
...
Рейтинг: 0 / 0
18.07.2016, 14:10
    #39275622
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Dima TВ эпоху засилья опенофиса (или как он там сейчас зовется) решили пойти простым путем, сделать самодельный генератор, с вордом проблем нет, RTF легко генерится, а с экселем сложнее. Сделали генератор BIFF4, Excel-95 если не путаю, этот формат довольно прост в реализации, более поздние намного сложнее. Но MS как обычно нагадил, эти файлы открываются экселем, но в readonly режиме с руганью что очень старый формат. Пока живем так, но надо что-то менять. Это утверждение легко проверить.
С http://www.ecma-international.org/publications/standards/Ecma-376.htm берем например Office Open XML Part 4 - Markup Language Reference.docx. Вытаскиваем с него \word\document.xml.
Открываем его редактором FAR и пробуем заменить все "<" на "1" .
Кстати этот документ /по крайней мере у меня/ медленно открывается с помощью OpenOffice 3.4.1 ..., а вот word его быстро открывает.
Но вот с fi000005.docx проблема все же имеется /дома перепроверю/.
...
Рейтинг: 0 / 0
18.07.2016, 14:12
    #39275628
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Sorry.
В предыдущем message приведена не та цитата.

Владимир2012Ну да ладно думаю ... мало ли бывает ...
Подумал сначала, что причина медленной загрузки xml ...
Вытащил из docx document.xml /83Mb/.
Понадобилось мне подсчитать количество символов "<" в нем.
Открыл его с помощью текстового редактора FAR и выполнил команду замены "<" на "1".
Так вот эта операция грузит ядро процессора на 100% и похоже не сможет завершиться до Нового Года ...!
...
Рейтинг: 0 / 0
18.07.2016, 14:44
    #39275666
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Владимир2012Но программа читаем 41Mb файл, рендерит его содержимое ... и отображает мгновенно!
Первую страницу, да. Переход на каждую следующую - отдельное чтение и рендеринг.
...
Рейтинг: 0 / 0
18.07.2016, 14:49
    #39275674
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Dimitry SibiryakovПервую страницу, да. Переход на каждую следующую - отдельное чтение и рендеринг.Ответ у меня будет в стиле подфорума Firebird /без обид/.
У меня все страницы быстро отображаются.
Что я делаю не так?
...
Рейтинг: 0 / 0
18.07.2016, 14:55
    #39275680
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Вообщем то многие достоинства и недостатки использования word /впрочем это касается любой программы/ происходят от ее программной архитектуры.
Вот в https://ru.wikipedia.org/wiki/Adobe_InDesign там иной подход и ... /не хочется развивать эту тему/.
...
Рейтинг: 0 / 0
18.07.2016, 22:51
    #39275955
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Владимир2012Понадобилось мне подсчитать количество символов "<" в нем.
Открыл его с помощью текстового редактора FAR и выполнил команду замены "<" на "1".
Так вот эта операция грузит ядро процессора на 100% и похоже не сможет завершиться до Нового Года ...!

Ты браток чето не то делаешь. Для подсчета открывающей угловой скобочки надо ее считать
а не заменять.
...
Рейтинг: 0 / 0
19.07.2016, 11:59
    #39276148
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
maytonТы браток чето не то делаешь. Для подсчета открывающей угловой скобочки надо ее считать
а не заменять.FAR по окончании выполнения замены сообщает об количестве, произведенных замен.
...
Рейтинг: 0 / 0
19.07.2016, 12:37
    #39276176
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Владимир2012maytonТы браток чето не то делаешь. Для подсчета открывающей угловой скобочки надо ее считать
а не заменять.FAR по окончании выполнения замены сообщает об количестве, произведенных замен.
Рискну предположить что во время замены FAR переключается из режима VIEW в режим редактирования
что влечет за собой некоторые накладные расходы CPU/Memory которые вы наблюдали.

А для подсчета слов можно использовать linux утилиту wc (word count) или ее консольный порт под Windows.

Если у вас ее нету - срочно обзаведитесь. Мой совет.
...
Рейтинг: 0 / 0
19.07.2016, 12:50
    #39276192
Dima T
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
ХЗ, у меня фар за несколько сек заменил < на 1 в xml-ке на 46 Мб.
...
Рейтинг: 0 / 0
19.07.2016, 12:51
    #39276195
Eolt
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Владимир2012Результат?
Врагу не пожелал бы.


сама концепция огромных XML файлов порочна, XML-ю место в конфигах, а для файлов размерами десятки мегов нужен бинарный формат
...
Рейтинг: 0 / 0
19.07.2016, 12:55
    #39276202
Владимир2012
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Для любителей поворчать ...
Dima TХЗ, у меня фар за несколько сек заменил < на 1 в xml-ке на 46 Мб.Попробуйте все же достать из docx \word\document.xml.
Его особенность в том, что он не разбит на строки, а /в моем случае/ является строкой длиной 87 MB.
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Для любителей поворчать ... / 25 сообщений из 44, страница 1 из 2
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]