|
|
|
Кодировка в языках разметки.
|
|||
|---|---|---|---|
|
#18+
Сколько не пытался понять, как в языках разметки можно можно использоваться кодировки несовместимые с Ansi. Допустим XML, в нем допускается использование кодировки UTF-16. Как же парсеру разобраться однобайтовая кодировака используеться, или нет. Для http еще можно прописать в заголовке кодировку, а как быть с файлом? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2010, 19:08:20 |
|
||
|
Кодировка в языках разметки.
|
|||
|---|---|---|---|
|
#18+
Про процессинговые инструкции слышали? Код: plaintext ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2010, 19:12:36 |
|
||
|
Кодировка в языках разметки.
|
|||
|---|---|---|---|
|
#18+
Внимательнее немного вчитайся в вопрос. Проблема не в том, как распознать кодировку. Допустим у нас есть 2 файла. В одном кодировка utf-16 а в другом utf-8. Как парсеру прочитать файл. Даже если файлы содержат идентичные данные, по содержанию они будут разные. Первый байт в файле с кодировкой utf-16 будет - #0, в с кодировкой utf-8 - < ?????? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2010, 19:23:40 |
|
||
|
Кодировка в языках разметки.
|
|||
|---|---|---|---|
|
#18+
Сколько не вчитывался, не нашел упоминания названия парсера. Если он писан на коленке, то это проблема автора. Если же это системный парсер уровня MSXML, то он должен уметь выдирать процессинговую инструкцию из файлов любых кодировок. Не так уж сложно проверить первый байт, 0 там, 3С или вообще кусок BOM, не правда ли? И фактически так и происходит . Если нет ни BOM ни процессинговой инструкции, то файл интерпретируется как utf-8, но если же он на самом деле в utf-16, то получите ошибку. И правильно. spider13Для http еще можно прописать в заголовке кодировку, а как быть с файлом? Кстати, прогуливать уроки не хорошо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2010, 21:25:00 |
|
||
|
Кодировка в языках разметки.
|
|||
|---|---|---|---|
|
#18+
Я не спрашиваю за какой то конкретный парсер, я спрашиваю в общем. Ну на счет BOM хорошо, идентификатор есть. Но если нет BOM или кодировка... ну например UCS2, по моему идентификатора в BOM для нее нету. И это хорошо что для XML самой первой строкой будет идентификатор с кодировкой, а если взять HTML или XHTML? нужно докопаться для тега meta, а ведь перед этим тегом могут быть теги title или тег ment с параметрами keywords, description в которых уже будет указан юникодовый текст. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.04.2010, 09:54:27 |
|
||
|
Кодировка в языках разметки.
|
|||
|---|---|---|---|
|
#18+
spider13по моемуОпять безосновательные домыслы. Гугл с википедией для кого делали? Во-первых, BOM есть и для UCS-2 , во-вторых она практически идентична UTF-16. spider13а если взять HTML или XHTML?Походу уроки вы так и не осилили, а ведь там все описано. Это печально. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.04.2010, 10:41:16 |
|
||
|
|

start [/forum/topic.php?fid=22&fpage=254&tid=1453238]: |
0ms |
get settings: |
9ms |
get forum list: |
21ms |
check forum access: |
5ms |
check topic access: |
5ms |
track hit: |
81ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
36ms |
get tp. blocked users: |
1ms |
| others: | 215ms |
| total: | 384ms |

| 0 / 0 |
