powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Для любителей поворчать ...
25 сообщений из 44, страница 1 из 2
Для любителей поворчать ...
    #39275268
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Прелюдия.

Сегодня /мои руки не для скуки/ решил мельком взглянуть на http://www.ecma-international.org/publications/standards/Ecma-376.htm Office Open XML File Formats.
Так вот среди файликов был fi000005.docx /22MB/. Это ECMA-376 3rd ed.
Попробывал открыть его в 10-м Microsoft Office, OpenOffice 4.1.1 и LibreOffice 5.1.

Результат?
Врагу не пожелал бы.

Microsoft Office грузит его /несколько минут/, а потом впадает в "спячку" /видно что-то там рендерит/.
Но ни чего не сообщает. В окне не показывается ни одной строки. И только минут через 15 если у пользователя хватит терпения он его увидит ...

OpenOffice 4.1.1 и LibreOffice 5.1. - мрак.
Отхватывают при открытии документа 860 Mb и грузят ужасно долго.

И на закуску.

Ну да ладно думаю ... мало ли бывает ...
Подумал сначала, что причина медленной загрузки xml ...
Вытащил из docx document.xml /83Mb/.
Понадобилось мне подсчитать количество символов "<" в нем.
Открыл его с помощью текстового редактора FAR и выполнил команду замены "<" на "1".
Так вот эта операция грузит ядро процессора на 100% и похоже не сможет завершиться до Нового Года ...!

Эпилог.

"В то время как космические корабли бороздят просторы вселенной ..."

PS: Вот с какими чудными программами и архитектурами программирования мы имеем дело ...
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275273
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В эпоху засилья опенофиса (или как он там сейчас зовется) решили пойти простым путем, сделать самодельный генератор, с вордом проблем нет, RTF легко генерится, а с экселем сложнее. Сделали генератор BIFF4, Excel-95 если не путаю, этот формат довольно прост в реализации, более поздние намного сложнее. Но MS как обычно нагадил, эти файлы открываются экселем, но в readonly режиме с руганью что очень старый формат. Пока живем так, но надо что-то менять.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275278
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima TПока живем так, но надо что-то менять.
BIFF8 писать, какие проблемы
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275281
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир2012Microsoft Office грузит его /несколько минут/, а потом впадает в "спячку" /видно что-то там рендерит/.Скорее всего причина такой "задумчимости" 10-м Microsoft Office, OpenOffice 4.1.1 и LibreOffice 5.1. состоит в том, что в docx имеется папка media, содержащая 1895 /из них png 1763 файла/.
Так вот все это добро нужно прочитать, открыть, ....
Но скорее всего основная причина - программная архитектура самого word /в частности ее реализации/.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275289
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Генери RTF. Элементарный формат.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275292
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima TГенери RTF. Элементарный формат.Ни чего не утверждаю и ни чему не призываю ...
Что интересно.
Тот же документ в формате pdf открывается мгновенно /а ведь он также содержит в себе 1895 изображений/ ...
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275297
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир2012документ в формате pdf изначально заточен для печати и показа (postscript фактически), разбит жёстко на страницы - ничего удивителного
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275302
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ИзопропилВладимир2012документ в формате pdf изначально заточен для печати и показа (postscript фактически), разбит жёстко на страницы - ничего удивителногоКонечно.
Но программа читаем 41Mb файл, рендерит его содержимое ... и отображает мгновенно!

PS:
"Так чем батенька pdf лучше docx?
Лучше чем."
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275307
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир2012"Так чем батенька pdf лучше docx?
Лучше чем."
ни о чём. да ладно.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275308
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Изопропилни о чём. да ладно.Надеюсь мои ответы вы не приняли за "чистую монету"?

PS: Sorry.
Пошутил не много.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275421
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мне стыдно!
Оказывается самый большой ворчун это - я!
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275465
tanglir
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир2012, "не рой яму другому..." :)

Владимир2012Так вот среди файликов был fi000005.docx /22MB/.где именно?
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275478
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
tanglirгде именно?С пол годика назад он там был ...
У меня на диске он имеется.
Вопрос куда его выложить /сам то ни какими google drive ... не пользуюсь/?
Так что если интерес к этому файлику останется, то выложу его сразу как только ...
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275486
tanglir
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир2012,

ifolder.ru с полгода назад ещё был нормальный(неограниченный объём безрегистрациииэсэмэс), не знаю как там сейчас
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275622
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima TВ эпоху засилья опенофиса (или как он там сейчас зовется) решили пойти простым путем, сделать самодельный генератор, с вордом проблем нет, RTF легко генерится, а с экселем сложнее. Сделали генератор BIFF4, Excel-95 если не путаю, этот формат довольно прост в реализации, более поздние намного сложнее. Но MS как обычно нагадил, эти файлы открываются экселем, но в readonly режиме с руганью что очень старый формат. Пока живем так, но надо что-то менять. Это утверждение легко проверить.
С http://www.ecma-international.org/publications/standards/Ecma-376.htm берем например Office Open XML Part 4 - Markup Language Reference.docx. Вытаскиваем с него \word\document.xml.
Открываем его редактором FAR и пробуем заменить все "<" на "1" .
Кстати этот документ /по крайней мере у меня/ медленно открывается с помощью OpenOffice 3.4.1 ..., а вот word его быстро открывает.
Но вот с fi000005.docx проблема все же имеется /дома перепроверю/.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275628
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Sorry.
В предыдущем message приведена не та цитата.

Владимир2012Ну да ладно думаю ... мало ли бывает ...
Подумал сначала, что причина медленной загрузки xml ...
Вытащил из docx document.xml /83Mb/.
Понадобилось мне подсчитать количество символов "<" в нем.
Открыл его с помощью текстового редактора FAR и выполнил команду замены "<" на "1".
Так вот эта операция грузит ядро процессора на 100% и похоже не сможет завершиться до Нового Года ...!
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275666
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир2012Но программа читаем 41Mb файл, рендерит его содержимое ... и отображает мгновенно!
Первую страницу, да. Переход на каждую следующую - отдельное чтение и рендеринг.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275674
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovПервую страницу, да. Переход на каждую следующую - отдельное чтение и рендеринг.Ответ у меня будет в стиле подфорума Firebird /без обид/.
У меня все страницы быстро отображаются.
Что я делаю не так?
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275680
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вообщем то многие достоинства и недостатки использования word /впрочем это касается любой программы/ происходят от ее программной архитектуры.
Вот в https://ru.wikipedia.org/wiki/Adobe_InDesign там иной подход и ... /не хочется развивать эту тему/.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39275955
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир2012Понадобилось мне подсчитать количество символов "<" в нем.
Открыл его с помощью текстового редактора FAR и выполнил команду замены "<" на "1".
Так вот эта операция грузит ядро процессора на 100% и похоже не сможет завершиться до Нового Года ...!

Ты браток чето не то делаешь. Для подсчета открывающей угловой скобочки надо ее считать
а не заменять.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39276148
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonТы браток чето не то делаешь. Для подсчета открывающей угловой скобочки надо ее считать
а не заменять.FAR по окончании выполнения замены сообщает об количестве, произведенных замен.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39276176
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир2012maytonТы браток чето не то делаешь. Для подсчета открывающей угловой скобочки надо ее считать
а не заменять.FAR по окончании выполнения замены сообщает об количестве, произведенных замен.
Рискну предположить что во время замены FAR переключается из режима VIEW в режим редактирования
что влечет за собой некоторые накладные расходы CPU/Memory которые вы наблюдали.

А для подсчета слов можно использовать linux утилиту wc (word count) или ее консольный порт под Windows.

Если у вас ее нету - срочно обзаведитесь. Мой совет.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39276192
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ХЗ, у меня фар за несколько сек заменил < на 1 в xml-ке на 46 Мб.
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39276195
Eolt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир2012Результат?
Врагу не пожелал бы.


сама концепция огромных XML файлов порочна, XML-ю место в конфигах, а для файлов размерами десятки мегов нужен бинарный формат
...
Рейтинг: 0 / 0
Для любителей поворчать ...
    #39276202
Владимир2012
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima TХЗ, у меня фар за несколько сек заменил < на 1 в xml-ке на 46 Мб.Попробуйте все же достать из docx \word\document.xml.
Его особенность в том, что он не разбит на строки, а /в моем случае/ является строкой длиной 87 MB.
...
Рейтинг: 0 / 0
25 сообщений из 44, страница 1 из 2
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Для любителей поворчать ...
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]