Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Различные кодировки символов в одном файле / 7 сообщений из 7, страница 1 из 1
20.05.2009, 20:50:12
    #35997661
yncas
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Различные кодировки символов в одном файле
Здравствуйте. Подскажите пожалуйста.
Есть текстовый файл в котором информация (кирилица + латиница) представлена в 2х разных кодировках. Текстовые редакторы, такие как Notepad++ и UltraEdit отображают текст правильно (то есть, они своими "мозгами" понимают, что текст представлен в различных кодировках), но при попытке сохранить файл в конкретной (одной) кодировке они выполняю преобразование не верно.
Вопрос в следующем. Есть ли (не важно у какого языка программирования) готовый инструментарий (функция к примеру) с помощью которого можно выполнить правильное преобразование. Или может кто предложет примерный "алгорит" преобразования. Или возможно существуют приложения умеющие выполнять подобные преобразования.

вот пример (обе строки находятся в одном и том же файле):

Стандартные изделия
Ñòàíäàðòíûå èçäåëèÿ
...
Рейтинг: 0 / 0
20.05.2009, 21:57:26
    #35997736
MasterZiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Различные кодировки символов в одном файле
yncas wrote:

> Есть текстовый файл в котором информация (кирилица + латиница)
> представлена в 2х разных кодировках. Текстовые редакторы, такие как

Такого не бывает. Иначе это не текстовый файл.
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
21.05.2009, 10:11:26
    #35998208
yncas
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Различные кодировки символов в одном файле
MasterZiv
Такого не бывает. Иначе это не текстовый файл.


Хорошо не будем называть его текстовым. Есть некий файл в котором представлена текстовая информация в двух различных кодировках. Как их различить?
...
Рейтинг: 0 / 0
21.05.2009, 10:26:25
    #35998243
gds
gds
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Различные кодировки символов в одном файле
yncas,

предлагаю читать файл по-битно и каждый бит конвертить из кодировки в UniCode. Вопрос как узнать какая именно кодировка у символа?
...
Рейтинг: 0 / 0
21.05.2009, 10:29:58
    #35998251
gds
gds
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Различные кодировки символов в одном файле
gdsyncas,

предлагаю читать файл по-битно и каждый бит конвертить из кодировки в UniCode. Вопрос как узнать какая именно кодировка у символа?
тонее по байтно.
...
Рейтинг: 0 / 0
21.05.2009, 10:48:20
    #35998325
golsa
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Различные кодировки символов в одном файле
Посмотри на файлик в 16-ричном представлении. Возможно можно разделить по интервалу кодов.
Читаешь строку (или слово), если все символы лежат в заданом интервале - одна кодировка, если есть смволы вне интервала - другая. Если один из них UniCode - то там на каждый символ два байта, младший из которых как правило одинаков для всех символов.
...
Рейтинг: 0 / 0
21.05.2009, 13:00:16
    #35998847
MasterZiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Различные кодировки символов в одном файле
yncas wrote:

> Хорошо не будем называть его текстовым. Есть некий файл в котором
> представлена текстовая информация в двух различных кодировках. Как их
> различить?

По сопроводительной нетекстовой информации, описывающей кодировку данных.
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Различные кодировки символов в одном файле / 7 сообщений из 7, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]