Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Caché, Ensemble, DeepSee, MiniM, IRIS, GT.M [игнор отключен] [закрыт для гостей] / определение кодировки входного текста. как? / 7 сообщений из 7, страница 1 из 1
01.07.2009, 10:19
    #36067243
neznau
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
определение кодировки входного текста. как?
Добрый день.

Нужно, чтобы на выходе был идентификатор кодировки. Может кто-то решал?

Спасибо.
...
Рейтинг: 0 / 0
01.07.2009, 10:24
    #36067257
Блок А.Н.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
определение кодировки входного текста. как?
Не знаю, всякие ворды неправильно кодировку определяют.
А как ее определить? статистически только - в языке больше одних символов и мало других,
правда если текст нетипичный, то кодировка определится неправильно.
...
Рейтинг: 0 / 0
01.07.2009, 10:27
    #36067266
DAiMor
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
определение кодировки входного текста. как?
на входе куда?
или вы хотите чтобы дать функции какой-то текст в любой кодировке, а на выходе получить какая кодировка или текст в нужной кодировке
это не так просто, это нужно писать программы распознавания кодировки текста, в инете есть подобные алгоритмы, и их легко можно реализовать на Cache`
_________________________________
Cache for Windows NT (AMD64) 5.0.21 (Build 6408) Tue Jan 3 2006 13:37:41 EST
...
Рейтинг: 0 / 0
06.07.2009, 12:31
    #36074854
Alexey Maslov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
определение кодировки входного текста. как?
Если возможных кодировок немного, задачу можно решать поиском вхождения символов текста в разность множеств допустимых кодов. Идея такова. Допустим, возможных кодировок всего 2 ({D} и {W}). Тогда, если в тексте существуют символы, принадлежащие {W}-{D}, определяем кодировку как W, напротив, если существуют символы, принадлежащие {D}-{W}, то как D, если нет ни тех, ни других, считаем неопределенной.
Есть реализация этого алгоритма для кодировок CP866 и CP1251. Прикладники пользуются, жалоб нет.
...
Рейтинг: 0 / 0
01.09.2009, 13:00
    #36172426
был тут
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
определение кодировки входного текста. как?
...
Рейтинг: 0 / 0
01.09.2009, 13:46
    #36172599
Ahilles
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
определение кодировки входного текста. как?
Может в начале (потока, текта и тд) несколько байт отвести под циферку. А по ней уже определять какая кодировка. (1-CP1251 2-CP1252 и тд)
...
Рейтинг: 0 / 0
24.09.2009, 01:55
    #36213882
neznau
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
определение кодировки входного текста. как?
спасибо всем
...
Рейтинг: 0 / 0
Форумы / Caché, Ensemble, DeepSee, MiniM, IRIS, GT.M [игнор отключен] [закрыт для гостей] / определение кодировки входного текста. как? / 7 сообщений из 7, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]