|
|
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Прелюдия. Сегодня /мои руки не для скуки/ решил мельком взглянуть на http://www.ecma-international.org/publications/standards/Ecma-376.htm Office Open XML File Formats. Так вот среди файликов был fi000005.docx /22MB/. Это ECMA-376 3rd ed. Попробывал открыть его в 10-м Microsoft Office, OpenOffice 4.1.1 и LibreOffice 5.1. Результат? Врагу не пожелал бы. Microsoft Office грузит его /несколько минут/, а потом впадает в "спячку" /видно что-то там рендерит/. Но ни чего не сообщает. В окне не показывается ни одной строки. И только минут через 15 если у пользователя хватит терпения он его увидит ... OpenOffice 4.1.1 и LibreOffice 5.1. - мрак. Отхватывают при открытии документа 860 Mb и грузят ужасно долго. И на закуску. Ну да ладно думаю ... мало ли бывает ... Подумал сначала, что причина медленной загрузки xml ... Вытащил из docx document.xml /83Mb/. Понадобилось мне подсчитать количество символов "<" в нем. Открыл его с помощью текстового редактора FAR и выполнил команду замены "<" на "1". Так вот эта операция грузит ядро процессора на 100% и похоже не сможет завершиться до Нового Года ...! Эпилог. "В то время как космические корабли бороздят просторы вселенной ..." PS: Вот с какими чудными программами и архитектурами программирования мы имеем дело ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.07.2016, 20:41 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
В эпоху засилья опенофиса (или как он там сейчас зовется) решили пойти простым путем, сделать самодельный генератор, с вордом проблем нет, RTF легко генерится, а с экселем сложнее. Сделали генератор BIFF4, Excel-95 если не путаю, этот формат довольно прост в реализации, более поздние намного сложнее. Но MS как обычно нагадил, эти файлы открываются экселем, но в readonly режиме с руганью что очень старый формат. Пока живем так, но надо что-то менять. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.07.2016, 21:19 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Dima TПока живем так, но надо что-то менять. BIFF8 писать, какие проблемы ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.07.2016, 21:25 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012Microsoft Office грузит его /несколько минут/, а потом впадает в "спячку" /видно что-то там рендерит/.Скорее всего причина такой "задумчимости" 10-м Microsoft Office, OpenOffice 4.1.1 и LibreOffice 5.1. состоит в том, что в docx имеется папка media, содержащая 1895 /из них png 1763 файла/. Так вот все это добро нужно прочитать, открыть, .... Но скорее всего основная причина - программная архитектура самого word /в частности ее реализации/. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.07.2016, 21:43 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Генери RTF. Элементарный формат. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.07.2016, 22:05 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Dima TГенери RTF. Элементарный формат.Ни чего не утверждаю и ни чему не призываю ... Что интересно. Тот же документ в формате pdf открывается мгновенно /а ведь он также содержит в себе 1895 изображений/ ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.07.2016, 22:14 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012документ в формате pdf изначально заточен для печати и показа (postscript фактически), разбит жёстко на страницы - ничего удивителного ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.07.2016, 22:27 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
ИзопропилВладимир2012документ в формате pdf изначально заточен для печати и показа (postscript фактически), разбит жёстко на страницы - ничего удивителногоКонечно. Но программа читаем 41Mb файл, рендерит его содержимое ... и отображает мгновенно! PS: "Так чем батенька pdf лучше docx? Лучше чем." ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.07.2016, 22:36 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012"Так чем батенька pdf лучше docx? Лучше чем." ни о чём. да ладно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.07.2016, 23:00 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Изопропилни о чём. да ладно.Надеюсь мои ответы вы не приняли за "чистую монету"? PS: Sorry. Пошутил не много. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.07.2016, 23:07 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Мне стыдно! Оказывается самый большой ворчун это - я! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2016, 10:19 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012, "не рой яму другому..." :) Владимир2012Так вот среди файликов был fi000005.docx /22MB/.где именно? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2016, 11:06 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
tanglirгде именно?С пол годика назад он там был ... У меня на диске он имеется. Вопрос куда его выложить /сам то ни какими google drive ... не пользуюсь/? Так что если интерес к этому файлику останется, то выложу его сразу как только ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2016, 11:17 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012, ifolder.ru с полгода назад ещё был нормальный(неограниченный объём безрегистрациииэсэмэс), не знаю как там сейчас ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2016, 11:24 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Dima TВ эпоху засилья опенофиса (или как он там сейчас зовется) решили пойти простым путем, сделать самодельный генератор, с вордом проблем нет, RTF легко генерится, а с экселем сложнее. Сделали генератор BIFF4, Excel-95 если не путаю, этот формат довольно прост в реализации, более поздние намного сложнее. Но MS как обычно нагадил, эти файлы открываются экселем, но в readonly режиме с руганью что очень старый формат. Пока живем так, но надо что-то менять. Это утверждение легко проверить. С http://www.ecma-international.org/publications/standards/Ecma-376.htm берем например Office Open XML Part 4 - Markup Language Reference.docx. Вытаскиваем с него \word\document.xml. Открываем его редактором FAR и пробуем заменить все "<" на "1" . Кстати этот документ /по крайней мере у меня/ медленно открывается с помощью OpenOffice 3.4.1 ..., а вот word его быстро открывает. Но вот с fi000005.docx проблема все же имеется /дома перепроверю/. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2016, 14:10 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Sorry. В предыдущем message приведена не та цитата. Владимир2012Ну да ладно думаю ... мало ли бывает ... Подумал сначала, что причина медленной загрузки xml ... Вытащил из docx document.xml /83Mb/. Понадобилось мне подсчитать количество символов "<" в нем. Открыл его с помощью текстового редактора FAR и выполнил команду замены "<" на "1". Так вот эта операция грузит ядро процессора на 100% и похоже не сможет завершиться до Нового Года ...! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2016, 14:12 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012Но программа читаем 41Mb файл, рендерит его содержимое ... и отображает мгновенно! Первую страницу, да. Переход на каждую следующую - отдельное чтение и рендеринг. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2016, 14:44 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Dimitry SibiryakovПервую страницу, да. Переход на каждую следующую - отдельное чтение и рендеринг.Ответ у меня будет в стиле подфорума Firebird /без обид/. У меня все страницы быстро отображаются. Что я делаю не так? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2016, 14:49 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Вообщем то многие достоинства и недостатки использования word /впрочем это касается любой программы/ происходят от ее программной архитектуры. Вот в https://ru.wikipedia.org/wiki/Adobe_InDesign там иной подход и ... /не хочется развивать эту тему/. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2016, 14:55 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012Понадобилось мне подсчитать количество символов "<" в нем. Открыл его с помощью текстового редактора FAR и выполнил команду замены "<" на "1". Так вот эта операция грузит ядро процессора на 100% и похоже не сможет завершиться до Нового Года ...! Ты браток чето не то делаешь. Для подсчета открывающей угловой скобочки надо ее считать а не заменять. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.07.2016, 22:51 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
maytonТы браток чето не то делаешь. Для подсчета открывающей угловой скобочки надо ее считать а не заменять.FAR по окончании выполнения замены сообщает об количестве, произведенных замен. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 11:59 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012maytonТы браток чето не то делаешь. Для подсчета открывающей угловой скобочки надо ее считать а не заменять.FAR по окончании выполнения замены сообщает об количестве, произведенных замен. Рискну предположить что во время замены FAR переключается из режима VIEW в режим редактирования что влечет за собой некоторые накладные расходы CPU/Memory которые вы наблюдали. А для подсчета слов можно использовать linux утилиту wc (word count) или ее консольный порт под Windows. Если у вас ее нету - срочно обзаведитесь. Мой совет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 12:37 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
ХЗ, у меня фар за несколько сек заменил < на 1 в xml-ке на 46 Мб. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 12:50 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012Результат? Врагу не пожелал бы. сама концепция огромных XML файлов порочна, XML-ю место в конфигах, а для файлов размерами десятки мегов нужен бинарный формат ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 12:51 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Dima TХЗ, у меня фар за несколько сек заменил < на 1 в xml-ке на 46 Мб.Попробуйте все же достать из docx \word\document.xml. Его особенность в том, что он не разбит на строки, а /в моем случае/ является строкой длиной 87 MB. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 12:55 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
EoltВладимир2012Результат? Врагу не пожелал бы. сама концепция огромных XML файлов порочна, XML-ю место в конфигах, а для файлов размерами десятки мегов нужен бинарный формат Дело не в размере а в концепциях работы с ним. Конечно если открывать его в текстовых редакторах (изначально позиционировался как Human-readable) то можем словить "срыв крышы" у многих популярных редакторов текста а некоторые IDE просто предупреждают дексыть что file is too large. Кроме того я часто встречал попытки делать экспорт из БД в XML. При любых раскладах CSV получается компактнее а в XML мы несем неоправданные расходы. По поводу конфигов веб-серверов и проектов. У меня все эти ваши web.xml, pom.xml, и еще более уродливые Apache-конфиги вызывают оторопь и изумление. Только диву даешся как админам не лень в ssh консолях править эти нелепые гроздья угловых скобок и еще не ошибиться при экранированиях e.t.c. Ну да бох с ними. Админы - люди подневольные. Взяли инструкцию и фиксят сприпя зубами. Но мы-то? В эпоху JSON. Или Yaml. Давно уже пора спрыгнуть с этово чертова XML в части работы с списками свойств. Да что там говорить. Иногда извинительнее будет даже ini-файл взять. Без понтов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 13:10 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
xml у меня 58MB. Честно подождал 10мин. За это время FAR поменял 60% символов. И это не смешно! Обратил внимание, что во время выполнения замены у FAR постоянно скачет используемая им память. То 120MB, то 247Mb, то 360MB. По всей видимости они используют строковые функции ... /то бишь чегой-то там делают с строкой длиной 61253082 символов/. И это не смешно! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 13:27 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012, Странные у тебя аномалии. Попробуй в nodepad++ для сравнения ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 13:54 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
maytonСтранные у тебя аномалии.Sorry. В панели FAR подвожу курсор к xml, жму F4, затем Ctrl+F7. В первой строке ввожу "<", во второй "1", жму Enter и выбираю "Все". А что эта аномаль только у меня проявляется? Что-то не верится. Компьютер на работе и дома весьма не плохой /и все на них работает "шустро"/ ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 14:02 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
maytonПопробуй в nodepad++ для сравненияИ зачем только вы мне это посоветовали!? Этот редактор отхватил уже 1.3GB памяти и работает, работает, работает, работает, ... Уже прошло минут 5 и ... О ужас Windows аварийно его завершила! Выводы. М-да. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 14:12 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Вообщем качнул исходники FAR и нашел в нем функцию, производящюю замену текста. C:\Program Files (x86)\CollabNet\Subversion Client\fardev\unicode_far\editor.cpp Line 3392 BOOL Editor::Search(int Next) Для тех кто хочет поковырять привожу ссылку для закачки исходников FAR: svn co http://svn.code.sf.net/p/farmanager/code/trunk fardev ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 14:28 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Если не ошибаюсь, то нужно обратить внимание на код Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. Так вот часто и густо будет выполняться функция append для добавления в NewStr анализируемой подстроки. При этом не забывают об undo: AddUndoData( ... ) Представляете во что это выливается при работе с строкой 61253082 символов? PS: Вообщем не хочу сильно критиковать этот код ... /нет ни желания ни времени/. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 15:00 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012, вобщем можно сделать вывод что работа с текстовым файлом в одну строку сопряжена с некоторыми неудобствами Спасибо за анализ. P.S. Если разом осушить бутылку с пометкой «яд», то рано или поздно, почти наверняка, почувствуешь легкое недомогание. (с) Алиса ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 15:04 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Отформатировал с indent. Получился файлик на 125 Мб. Скриптик (копия примера со stackoverflow слегка переделанная). Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 17:36 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
maytonОтформатировал с indent. Получился файлик на 125 Мб. Далее сказанное относится не к вам. "Другие программисты приводят примеры кода. Но чем я хуже! xttps://www.youtube.com/watch?v=2ZkMyB7Jp4k " Сшас перекушу и выдам парочку своих вариантов на разных языках ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 18:30 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
maytonСкриптик (копия примера со stackoverflow слегка переделанная).Просьба привести пример командной строки или скрипт для отработки этого кода. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 19:19 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Ох я ленивый как кот. Вбей сюда полные путя и скомпилируй. И все буеит чики-пики. Код: java 1. 2. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 19:28 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
"Программисты всех языков. Покажите как работать с строкой размером 100MB! " PS: "Вы панике не поддавайтесь. Спасайтесь! Организованно." ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 20:15 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012PS: "Вы панике не поддавайтесь. Спасайтесь! Организованно."xttps://www.youtube.com/watch?v=PpGcsrsyBjQ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 20:22 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012"Программисты всех языков. Покажите как работать с строкой размером 100MB! " просто надо забыть что это строка и рассматривать ее как большой массив букав. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 20:37 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012, Давным-давно известно, что редактор FAR очень медленно работает с длинными строками. Зачем продолжать грызть кактус и делать из этого глубокие выводы - я честно не понимаю. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 21:34 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
У меня Notepad++ повис на операции форматирования XML через плагин. Я думаю что эта болезнь не только у FAR. Помнится в прошлом году мы обсуждали "строку" длиной в терабайт и операцию unique. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 21:49 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
Владимир2012Программисты всех языков. Покажите как работать с строкой размером 100MB! 11610237 как-то так (осторожно, ПТ!) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 22:08 |
|
||
|
Для любителей поворчать ...
|
|||
|---|---|---|---|
|
#18+
schiЗачем продолжать грызть кактус и делать из этого глубокие выводы - я честно не понимаю.Имеется много чего "очевидного" как у вас так и у меня ... /и не всегда эти области пересекаются/. Насчет выводов ... Пока только один - "Век живи, век учись". Вообщем то у меня нет цели как таковой кого-то принизить. Просто все само собой получилось /см. 1-й message/. До некоторой степени даже забавно /и не более того/. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.07.2016, 22:12 |
|
||
|
|

start [/forum/topic.php?all=1&fid=16&tid=1340657]: |
0ms |
get settings: |
9ms |
get forum list: |
17ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
73ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
75ms |
get tp. blocked users: |
2ms |
| others: | 253ms |
| total: | 452ms |

| 0 / 0 |
