Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / HTML, JavaScript, VBScript, CSS [игнор отключен] [закрыт для гостей] / Кодировка в языках разметки. / 6 сообщений из 6, страница 1 из 1
12.04.2010, 19:08:20
    #36574932
spider13
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Кодировка в языках разметки.
Сколько не пытался понять, как в языках разметки можно можно использоваться кодировки несовместимые с Ansi. Допустим XML, в нем допускается использование кодировки UTF-16.
Как же парсеру разобраться однобайтовая кодировака используеться, или нет. Для http еще можно прописать в заголовке кодировку, а как быть с файлом?
...
Рейтинг: 0 / 0
12.04.2010, 19:12:36
    #36574939
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Кодировка в языках разметки.
Про процессинговые инструкции слышали?
Код: plaintext
<?xml  version="1.0" encoding="utf-16"?> 
...
Рейтинг: 0 / 0
12.04.2010, 19:23:40
    #36574957
spider13
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Кодировка в языках разметки.
Внимательнее немного вчитайся в вопрос. Проблема не в том, как распознать кодировку.

Допустим у нас есть 2 файла. В одном кодировка utf-16 а в другом utf-8.
Как парсеру прочитать файл. Даже если файлы содержат идентичные данные, по содержанию они будут разные. Первый байт в файле с кодировкой utf-16 будет - #0, в с кодировкой utf-8 - <
??????
...
Рейтинг: 0 / 0
12.04.2010, 21:25:00
    #36575121
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Кодировка в языках разметки.
Сколько не вчитывался, не нашел упоминания названия парсера. Если он писан на коленке, то это проблема автора. Если же это системный парсер уровня MSXML, то он должен уметь выдирать процессинговую инструкцию из файлов любых кодировок. Не так уж сложно проверить первый байт, 0 там, 3С или вообще кусок BOM, не правда ли? И фактически так и происходит . Если нет ни BOM ни процессинговой инструкции, то файл интерпретируется как utf-8, но если же он на самом деле в utf-16, то получите ошибку. И правильно.

spider13Для http еще можно прописать в заголовке кодировку, а как быть с файлом?
Кстати, прогуливать уроки не хорошо.
...
Рейтинг: 0 / 0
13.04.2010, 09:54:27
    #36575569
spider13
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Кодировка в языках разметки.
Я не спрашиваю за какой то конкретный парсер, я спрашиваю в общем.
Ну на счет BOM хорошо, идентификатор есть. Но если нет BOM или кодировка... ну например UCS2, по моему идентификатора в BOM для нее нету.
И это хорошо что для XML самой первой строкой будет идентификатор с кодировкой, а если взять HTML или XHTML? нужно докопаться для тега meta, а ведь перед этим тегом могут быть теги title или тег ment с параметрами keywords, description в которых уже будет указан юникодовый текст.
...
Рейтинг: 0 / 0
13.04.2010, 10:41:16
    #36575701
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Кодировка в языках разметки.
spider13по моемуОпять безосновательные домыслы. Гугл с википедией для кого делали?
Во-первых, BOM есть и для UCS-2 , во-вторых она практически идентична UTF-16.
spider13а если взять HTML или XHTML?Походу уроки вы так и не осилили, а ведь там все описано. Это печально.
...
Рейтинг: 0 / 0
Форумы / HTML, JavaScript, VBScript, CSS [игнор отключен] [закрыт для гостей] / Кодировка в языках разметки. / 6 сообщений из 6, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]