powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / HTML, JavaScript, VBScript, CSS [игнор отключен] [закрыт для гостей] / Кодировка в языках разметки.
6 сообщений из 6, страница 1 из 1
Кодировка в языках разметки.
    #36574932
spider13
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сколько не пытался понять, как в языках разметки можно можно использоваться кодировки несовместимые с Ansi. Допустим XML, в нем допускается использование кодировки UTF-16.
Как же парсеру разобраться однобайтовая кодировака используеться, или нет. Для http еще можно прописать в заголовке кодировку, а как быть с файлом?
...
Рейтинг: 0 / 0
Кодировка в языках разметки.
    #36574939
Фотография Antonariy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Про процессинговые инструкции слышали?
Код: plaintext
<?xml  version="1.0" encoding="utf-16"?> 
...
Рейтинг: 0 / 0
Кодировка в языках разметки.
    #36574957
spider13
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Внимательнее немного вчитайся в вопрос. Проблема не в том, как распознать кодировку.

Допустим у нас есть 2 файла. В одном кодировка utf-16 а в другом utf-8.
Как парсеру прочитать файл. Даже если файлы содержат идентичные данные, по содержанию они будут разные. Первый байт в файле с кодировкой utf-16 будет - #0, в с кодировкой utf-8 - <
??????
...
Рейтинг: 0 / 0
Кодировка в языках разметки.
    #36575121
Фотография Antonariy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сколько не вчитывался, не нашел упоминания названия парсера. Если он писан на коленке, то это проблема автора. Если же это системный парсер уровня MSXML, то он должен уметь выдирать процессинговую инструкцию из файлов любых кодировок. Не так уж сложно проверить первый байт, 0 там, 3С или вообще кусок BOM, не правда ли? И фактически так и происходит . Если нет ни BOM ни процессинговой инструкции, то файл интерпретируется как utf-8, но если же он на самом деле в utf-16, то получите ошибку. И правильно.

spider13Для http еще можно прописать в заголовке кодировку, а как быть с файлом?
Кстати, прогуливать уроки не хорошо.
...
Рейтинг: 0 / 0
Кодировка в языках разметки.
    #36575569
spider13
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я не спрашиваю за какой то конкретный парсер, я спрашиваю в общем.
Ну на счет BOM хорошо, идентификатор есть. Но если нет BOM или кодировка... ну например UCS2, по моему идентификатора в BOM для нее нету.
И это хорошо что для XML самой первой строкой будет идентификатор с кодировкой, а если взять HTML или XHTML? нужно докопаться для тега meta, а ведь перед этим тегом могут быть теги title или тег ment с параметрами keywords, description в которых уже будет указан юникодовый текст.
...
Рейтинг: 0 / 0
Кодировка в языках разметки.
    #36575701
Фотография Antonariy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
spider13по моемуОпять безосновательные домыслы. Гугл с википедией для кого делали?
Во-первых, BOM есть и для UCS-2 , во-вторых она практически идентична UTF-16.
spider13а если взять HTML или XHTML?Походу уроки вы так и не осилили, а ведь там все описано. Это печально.
...
Рейтинг: 0 / 0
6 сообщений из 6, страница 1 из 1
Форумы / HTML, JavaScript, VBScript, CSS [игнор отключен] [закрыт для гостей] / Кодировка в языках разметки.
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]