Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
Пусть мы храним русскоязычные тексты, будем считать для простоты, что все они записаны малыми буквами, то есть алфавит состоит ровно из 32 символов (е и ё не различаем) . В нашем распоряжении есть частотный словарь этого языка, - например, http://bokrcorpora.narod.ru/frqlist/frqlist.html (конкретно - файл http://bokrcorpora.narod.ru/frqlist/words.num.zip ). Идея состоит в следующем: почему бы не "расширить" алфавит, добавив в него (кроме "одиночных" букв) еще и наиболее употребительные буквосочетания? Я взял указанный словарь и посчитал на основании него частоты буквосочетаний (длинной от 1-го до 4-х символов). Вот 255 наиболее часто встречающихся сочетаний: Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120. 121. 122. 123. 124. 125. 126. 127. 128. 129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141. 142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. 155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167. 168. 169. 170. 171. 172. 173. 174. 175. 176. 177. 178. 179. 180. 181. 182. 183. 184. 185. 186. 187. 188. 189. 190. 191. 192. 193. 194. 195. 196. 197. 198. 199. 200. 201. 202. 203. 204. 205. 206. 207. 208. 209. 210. 211. 212. 213. 214. 215. 216. 217. 218. 219. 220. 221. 222. 223. 224. 225. 226. 227. 228. 229. 230. 231. 232. 233. 234. 235. 236. 237. 238. 239. 240. 241. 242. 243. 244. 245. 246. 247. 248. 249. 250. 251. 252. 253. 254. - почему 254? Чтобы "выйти" на 256 - с учетом того, что одно "место" нужно оставить под твердый знак, который оказался далеко "под чертой": Код: plaintext 1. - и еще одно место нужно зарезрвировать под хотя бы один спецсимвол ... он же - по совместительству - пробел ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.10.2004, 16:10 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
а зачем это все ? Или просто "оцените красоту идеи" ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.10.2004, 17:02 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
В тексте могут встречаться не только буквы(буквы, между прочим, еще и в двух регистрах), но и знаки препинания наряду с цифрами, даже если этот текст и русскоязычный. Так все же - зачем это? Попытка сжать данные? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.10.2004, 17:13 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2004, 09:09 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
1. Да, это про сжатие данных ... такое, чтобы его легко было "разжимать". Даже не "данных", а - СЛОВАРЯ. 2. Да, конечно, это просто идея ... я как чукча: что пришло в голову, то и пою. Мож кому пригодится ... или на какие мысли наведет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2004, 09:18 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
Уважаемый Иван. Сейчас современная наука находится на таком этапе развития, что наблюдая за паденьем яблока, уже не откроешь закон всемирного тяготения, потому что его открыли уже очень давно. Поэтому советую Вам, прежде чем делать "первооткрывания" в некоторой области, хорошо ее изучить. Все что в ней сделано до Вас. По тому вопросу, который интересует Вас, я бы для начала посоветовал почитать http://www.penza.fio.ru/misc/admin/tcpip/comp_26.htm в частности, алгорит Хафмана. Но еще продуктивней было бы посещение библиотеки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2004, 10:23 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
"ValGarn" <nospam@sql.ru> сообщил/сообщила в новостях следующее: news:1005298@sql.ru... Уважаемый Иван. Сейчас современная наука находится на таком этапе развития, что наблюдая за паденьем яблока, уже не откроешь закон всемирного тяготения, потому что его открыли уже очень давно. Поэтому советую Вам, прежде чем делать "первооткрывания" в некоторой области, хорошо ее изучить. Все что в ней сделано до Вас. По тому вопросу, который интересует Вас, я бы для начала посоветовал почитать http://www.penza.fio.ru/misc/admin/tcpip/comp_26.htm в частности, алгорит Хафмана. Но еще продуктивней было бы посещение библиотеки. Скучно! Так ничего не откроешь в жизни! Вдруг там действительно открытие и Иван FXS первооткрыватель! Если считать, что все открыто, ничего не придумаешь в жизни! Будешь только пережовывать старые открытия! Открытия там, где их не ждешь! -- Posted via ActualForum NNTP Server 1.0 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2004, 10:31 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
Осталось придумать закорючки которые будут представлять эти дополнительные символы :)) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2004, 11:51 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
ValGarn , я же так и написал: чукча не читатель будет, чукча будет - писатель! ;-) А за ссылочку - спасибо! И, кстати, на "первооткрывание" я - в этом топике, - вроде, не претендовал ... Green2 , дело даже не втом, что "так ничего не откроешь в жизни!", но - в том (что Вы чуть ниже написали) "ничего не придумаешь" ... Для того, чтобы ДЕЛАТЬ что-то - тоже ведь полезно "придумывать", а не только - чтобы "первооткрывать" ... Shultze , дык - я же написал - иероглифизация ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2004, 12:47 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
А чё не сразу - "матрешка" - накиньте еще иероглифы корней (могабыть описанные уже заданным "словарем" букв и сочетний). + правила (ново)образования словоформ (спецпоследовательности?) Только 254 символа базового набора придется исчо проредить - т.к. служебные символы потребуются + , в т.ч. как говорилось, метка регистра. И где нть в 16 разрядов уложите таким макаром всего брокгауза с эфроном (с учетом словоформ). Затем и за иные словари приметесь. (а там и переводами займетесь. Интересно посчитать, во сколько сожметесь в усредненном тексте (кстати текстовый поиск по ключам можно будет проводить не распаковывая). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.10.2004, 12:48 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
ValGarn... для начала посоветовал почитать http://www.penza.fio.ru/misc/admin/tcpip/comp_26.htm в частности, алгорит Хафмана. - да, это - 2.6.5 Статический алгоритм Хафмана - очень полезно, спасибо за "науку". Особенно меня заинтересовало следующее:Возможно применение стандартных алфавитов (кодовых таблиц) для пересылки английского, русского, французского и т.д. текстов, программных текстов на С++, Паскале и т.д - не подскажете, где можно взять "стандартный алфавит ... для пересылки ... русского"? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.10.2004, 12:48 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
Сейчас мне кажется, что "строго-алогитмическое" решение - в лоб - этой задачи ... сложновато. Хочу попробовать порешать ее ГЕНЕТИЧЕСКИМ алгоритмом ... Что скажете? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.10.2004, 11:45 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
Кодирование букв и слогов напоминает стенографию. Расширьте словарь до 2 байт, включая общеупотребительные понятия и слова :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.10.2004, 16:53 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
Хмм, почему то мне кажется что и алгоритм Хаффмана и (скажем) Шеннона-Фано даже в статическом виде дадут гораздо лучший коэффициент сжатия чем такая иероглифизация. В чем же глубокий смысл? Я ничего не имею против, просто мне интересно за что бьемся. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.10.2004, 11:14 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
ХренХмм, почему то мне кажется что и алгоритм Хаффмана и (скажем) Шеннона-Фано даже в статическом виде дадут гораздо лучший коэффициент сжатия чем такая иероглифизация. В чем же глубокий смысл? Я ничего не имею против, просто мне интересно за что бьемся. Некоторое представление о битве можно получить здесь и здесь и здесь ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.10.2004, 13:38 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
Хрен ... за что бьемся. - алгоритм Хаффмана использует для кодирования ТАБЛИЦУ, вообще говоря - БОЛЬШУЮ. А я бьюсь за кодирование (кодирование слов) которое было бы ВЫЧИСЛИМЫМ в обе стороны. При этом: а. чтобы необходимые для кодирования таблицы были МАЛЕНЬКИМИ б. чтобы ИСКЛЮЧЕНИЙ, не подпадающих под данный алгоритм было как можно меньше. (Понимая, что они, скорее всего, НЕИЗБЕЖНЫ!) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.10.2004, 12:35 |
|
||
|
Задачка: иероглифизация русского языка.
|
|||
|---|---|---|---|
|
#18+
Люди добры, поглядите, - правильно ли я составил "таблицу Хаффмана"? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.11.2004, 16:21 |
|
||
|
|

start [/forum/topic.php?fid=16&fpage=214&tid=1348113]: |
0ms |
get settings: |
4ms |
get forum list: |
9ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
32ms |
get topic data: |
6ms |
get forum data: |
1ms |
get page messages: |
54ms |
get tp. blocked users: |
1ms |
| others: | 237ms |
| total: | 348ms |

| 0 / 0 |
