|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Отсортированный список смежности по 1-2 колонкам. (Текстовый формат я привожу просто в качестве Demo) На самом деле я буду все текстовые цифры писать в бинарном формате. А бинарь не особо презентабелен для глаз. Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36.
Еще фрагмент с хвоста Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22.
... |
|||
:
Нравится:
Не нравится:
|
|||
06.09.2020, 16:21 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
В текстовом виде в архиве почти 1 мегабайт. Это тоже проигрыш. Не выходим на оценочные объемы. Код: sql 1. 2. 3.
Будем нормализовывать дальше. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.09.2020, 16:30 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Убрал повторы вершины V1. Предположительно есть баги с лишним разделилелем (точка с запятой) но в целом статистика будет достоверной. Все еще текстовый режим. Код: sql 1. 2. 3.
Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52.
650 килобайт уже лучше но все еще хреново. Буду пробовать бинарник. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.09.2020, 17:06 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Приподниму темку. Я о своём, вряд ли это интересно для сжатия. О нек-рых недостатках псевдо3-граммного кодирования. Т.е. как у меня. Потому что я никогда не преследовал сжатия как цели. Выше я дал пример "дайджеста" 1-го тома. Но это было при фильтрации на (не помню) 8-10 уровне. Итог же 1-го уровня таков. На выходе пограммы получаем словарь+"текст". (В кавычках, поскольку "текст" состоит из ссылок на словарь. Для 1-го уровня это текст в натуре, а для вышестоящих уровней - сами понимаете что, ссылка на ссылку...) Так вот, кол-во узлов в словаре 1-го уровня 7388 байт. При условии, что к тексту был присоеденён словарь 1-2-3хграмм, полученный из реального словаря русского языка. Только все эти псевдотройки в нижнем регистре, а в исходнике они как есть, включая иностранные слова, пробелы и 13/10. Собственно присоеденённый предопределённый словарь < 30K. Сложив длину узлов в словаре, получим = 21716 байт. Для сжатия плохо, а "текст" 2-го уровня, полученный из ссылок на словарь, ~535K. Т.о. всё текстовое разнообразие 1-го тома (800K) использует вот эти 7388 единиц. В результате сегментации узлами оказалось достаточно много одиночных символов. Для примера список топов одиночек по убыванию: "с '\10' и о л . т е р н я в м л - у п а ь к [ ] й ю н Н д х ( ) ч з ! ш ж".... В этом списке 1-я половина >100 ссылок, 2-я половина <100. В аутсайдерах 40 узлов по 1-2 вхождений. Там всякие кавычки, инобуквы и т.п., появившиеся после ухода от UTF-8. Это очень плохо даже для дайджеста. Надо сказать, что всё было конвертировано в win-1251. Следует понимать, что эти же символы входят и в составные узлы в этом же словаре. А значит их частота как узлов не равна частотному использованию символа в исходнике. Каждый узел 1-го уровня может входить в несколько узлов высоких уровней. На 8-10 уровне ситуация иная. Как цельные узлы 1 и 2 пробела оказались абсолютными лидерами по частоте использования. Пара 13/10 - в перфой пятёрке лидеров. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.09.2020, 15:42 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Что теперь делать? см. рис. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.09.2020, 19:29 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
А я улучшил вывод статистики. Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.
NameStats - это длина имени узла. Как видим Лев Николаич не использовал слова длиннее 14 символов практически. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.09.2020, 23:21 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Ценой нечеловеческих усилий я разделил проект поддержки графов и сжатие в разные проекты. Теперь можно развивать алгоритмы графов полностью отдельно. Из улучшений. Генерики. Теперь вершина и ребро не имеют хардкодных свойств. Они контейнеры. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.09.2020, 22:51 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Выложу. Может кому пригодится. Проект сжатия текстов на основе марковских цепей после этого пришел в полный развал. Ничего не собирается. Надо сделать много изменений. Я сейчас пытаюсь выкосить из него хотяб 80% всех ненужных сорцов чтоб стало меньше кода. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.09.2020, 22:59 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Некоторые методы просто выглядят громоздко и их надо уменьшить в размере. Но в следующей версии я просто подпихну тесты чтоб было покрытие. И после этого можно поиграть в улучшалки. Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37.
Начинаю с завистью смотреть на Scala. Генерики в ней - шикарны. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.09.2020, 23:01 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Теперь прочувствовали, почему я предпочитаю низким средствам свой ML? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.09.2020, 22:56 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Я всю жизсть мечтал чтоб "нажал на кнопу" и все задачи из бэклога делались сами. К сожалению на ниве ИИ ничего подобного так и не было создано ни в ML, нив Haskell ни в Prolog. Формальная логика не раздупляет то что хочет кастомер. Так что тут ни в Java и не в С++ дело... ... |
|||
:
Нравится:
Не нравится:
|
|||
20.09.2020, 23:25 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
exp98 ..... На этой странице я взял паузу ... --------------------------------------------------------------- Вчера совпала возможность с желанием потрудиться. Подвинем графы для Графа. Возвращусь к старой теме. Сканирование фотографий. Страница 9 топика была последней в мае месяце. Немного продвинулся. В качестве кратенькго отчёта кажу 2 "фотосессии".Они не вместились в 1 архив. Приложу 2 архива. Почему 2? Было несколько исходников. Я взял 2 файла "album-01-scaled" и "box-06". создал "фото-отчёты" по принципу 1 исходник <==> "фото-отчёт для 1 исходника. В основном рассчитываю, что из названий картинок будет понятно, как предлагается резать исходный лист. --------------------------------------------------------------- Идея отчёта такая. - Есть лист из альбома, на нём 2 столбца разнокалиберных фотографий. В отчёте это файл с суффиксом *-full.png - Программа автоматически разделяет лист на 2 поолвинки: левую и правую. В названиях файлов суффикс *-left либо -right. - На каждой половинке и в полном файле методом Радона Хаффа рисуются прямые. Параметром взято 30 штук прямых с наименьшим наклоном. Получаются пучки прямых. Они в файлах с названием "-haughLines". Видно, что на -full много ложных прямых. Разбиение по вертикали помогает отсеять много ложных. Это виднопо пучкам на левом и правом соответственно. - Затем в каждой половине (на основе 3-х версий кластеризации) - Пучки кластеризуются. В результате предлагается по одной прямой для каждого разреза. Это видно на файлах с названием -cluster. Это всего лишь предмакет, который надо допиливать на разные случаи жизни. Либо пойти совсем другим путём. В общем я хотел эитм всем сказать, что задачу вполне можно дотянуть. Но увы, на это нужно время. Не знаю когда появится возможность продолжить. На вопросы отвечу в течение неск дней, тоже если получится. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.10.2020, 21:58 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Слеующая отчётик ... |
|||
:
Нравится:
Не нравится:
|
|||
19.10.2020, 22:00 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Посмотрел. Метод столбцов не подходит. Вот альбом детских фоток. Видно что конфигурация рамок на сканах может быть совершенно любой. Даже не 4х4. И не 2х2. А есть еще лесенка. Зигзаг. И вообще безо всякого направления. Веером. Как игральные карты. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.10.2020, 23:01 |
|
Четверговый архивариус
|
|||
---|---|---|---|
#18+
Веер, зигзаг и т.п. кладутся ручками в отдельные каталоги как параметр особых алгоритмов. Я не настолько широко образован, чтобы быть в курсе всех современных решений. Веер - уже упоминалось: нужно искать паттерн верхнего уголка, если таковой имеется. Ну а вдруг в фото на стенке висит портрет, а в нём на стенке висит портрет ... ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 17:10 |
|
|
start [/forum/topic.php?fid=16&msg=40000588&tid=1339720]: |
0ms |
get settings: |
8ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
153ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
45ms |
get tp. blocked users: |
1ms |
others: | 238ms |
total: | 477ms |
0 / 0 |