
Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
27.08.2007, 13:18
|
|||
|---|---|---|---|
|
|||
Кодовая страница текстовых файлов |
|||
|
#18+
Такая проблема: Есть каталог на диске, в него из почты скидываются текстовые файлы, кадировка может быть как 866 так и 1251, как определить у какого файла какая кадировка? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.08.2007, 13:37
|
|||
|---|---|---|---|
|
|||
Кодовая страница текстовых файлов |
|||
|
#18+
Статистическим анализом содержимого. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.08.2007, 13:53
|
|||
|---|---|---|---|
Кодовая страница текстовых файлов |
|||
|
#18+
Программно, со 100% гарантией - никак. Просто потому, что обычный текстовый файл не имеет явного признака кодовой страницы. Единственный способ гарантированно ее определить - это менять кодовую страницу и смотреть глазами, что получилось. А определить с некоторой степенью вероятности - это статистический анализ наиболее часто встречающихся кодов символов и их сочетаний. Ну, или искать текст, который должен быть в письме обязательно сначала в одной кодовой странице, потом в другой. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.08.2007, 14:03
|
|||
|---|---|---|---|
|
|||
Кодовая страница текстовых файлов |
|||
|
#18+
В том то и дело, все должно выполняться автоматом (иначе просто нет смысла) без какого либо человеческого участия - обработка входной корреспонденции- далее посылка на печать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.08.2007, 14:27
|
|||
|---|---|---|---|
Кодовая страница текстовых файлов |
|||
|
#18+
Только эвристикой. Еще можешь оттолкнуться от кодов символов русских букв: Win (1251): 192-255 DOS (866): 128-159, 160-239 Считай сколько символов попало в каждый диапазон и принимай решение 1251 или 866. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.08.2007, 14:30
|
|||
|---|---|---|---|
Кодовая страница текстовых файлов |
|||
|
#18+
Про DOS чуть напутал: 128-175, 224-239 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.08.2007, 15:06
|
|||
|---|---|---|---|
|
|||
Кодовая страница текстовых файлов |
|||
|
#18+
tmiВ том то и дело, все должно выполняться автоматом (иначе просто нет смысла) без какого либо человеческого участия - обработка входной корреспонденции- далее посылка на печать. Можно использовать вероятности биграмм - грубо говоря - насколько часто буква встречается в среднестатистическом тексте. Для какой кодировки сумма процентов больше - та и верная. Срабатывает даже там, где неверно указана кодировка письма (при желании можно распознать и многократные перекодировки). Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.08.2007, 17:07
|
|||
|---|---|---|---|
|
|||
Кодовая страница текстовых файлов |
|||
|
#18+
А если проверять наличие таких вот нестандартных символов - ў®§¬®¦ и пр., которых в тексте быть не должно? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
28.08.2007, 04:54
|
|||
|---|---|---|---|
|
|||
Кодовая страница текстовых файлов |
|||
|
#18+
Идея понятна. Всем огромное спасибо! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
28.08.2007, 06:20
|
|||
|---|---|---|---|
|
|||
Кодовая страница текстовых файлов |
|||
|
#18+
У меня получилось DOS кодировка 129-176 и 225-242 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
29.08.2007, 20:08
|
|||
|---|---|---|---|
|
|||
Кодовая страница текстовых файлов |
|||
|
#18+
про биграммы не понял :( аа- 2 аб -7 это что значит вероятность аб в 7/2 выше чем аа процент в столбце ??? и последняя строка ? pls поясните ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.08.2007, 15:05
|
|||
|---|---|---|---|
|
|||
Кодовая страница текстовых файлов |
|||
|
#18+
Гулин Федорпро биграммы не понял :( аа- 2 аб -7 это что значит вероятность аб в 7/2 выше чем аа Если хочешь точно - погугли. Насколько я помню - относительная частота появления в тексте (от 0 до 9) Гулин Федор процент в столбце ??? и последняя строка ? процент - насколько часто буква встречается в текстах (относительно ъ) Последняя строка - темный лес :) В принципе для решения реальной задачи мне хватило колонки "процент". Прога уверенно распознает любую кодировку. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=41&tablet=1&tid=1588843]: |
0ms |
get settings: |
7ms |
get forum list: |
9ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
57ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
31ms |
get tp. blocked users: |
1ms |
| others: | 203ms |
| total: | 321ms |

| 0 / 0 |
