|
Правила XML
|
|||
---|---|---|---|
#18+
Доброе время суток У меня есть идея создать супер парсер И я сейчас собираю информацию, проектирую, обдумываю К слову у меня уже есть опыт написания XML-парсера. Но он был достаточно простой, не воспринимал CDATA, не придерживался строгих правил XML и одинаково годно использовался для парсинга HTML. Сейчас я хочу восполнить безграмотность, и так как я не нашёл адекватного описания правил в одном месте, я решил обратиться сюда Думаю профессионалам ответить на мои вопросы будет очень просто Пока эти 10: 1) имеем допустим объявление <?xml version="1.1" ?> и нет BOM какая кодировка должна использоваться в таком случае? UTF-8 или дефолтная на машине (например windows-1251) ? какая кодировка, если вообще нет xml-объявления ? 2) processing instruction типа <?xml-stylesheet href="my-style.css"?> она одна во всём документе или их может встречаться несколько ? она обязана идти сразу после xml-объявления или может быть в любом месте xml ? 3) допускается ли хотя бы один из таких видов узлов: <node >, < node> и какие символы можно использовать для наименования ? 4) возможен ли один из таких закрывающихся тегов: </ node>, < /node>, </node >, </node at="v"> 5) можно ли таким образом объявить открывающиеся-закрывающиеся узлы: <node />, <node / >, <node/ > и вообще допускается ли такая запись: <node/> 6) можно ли так объявлять атрибуты: <node at="v">, <node at ="v">, <node at= "v">, <node at="v" > или разные кавычки: <node at='v"> и вообще какие символы допускаются в имени атрибута между атрибутами можно ли использовать другие символы кроме пробела, например табуляцию 7) значение узла пустое или содержит несколько строк, разделённых \n ? <node> </node> какие символы допустимы в значении узла ? 8) может ли в XML-документе встретиться символ с кодом 0 9) обе ли hex-записи допустимы: ® и ® кстати &192; - это номер в Unicode кодировке или может например подразумеваться 'А' в windows-1251 ? 10) есть ли иные спецсимволы кроме < > & ' " например или ≤ Спасибо ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 00:16 |
|
Правила XML
|
|||
---|---|---|---|
#18+
:) 9) обе ли hex-записи допустимы: #ae; и #xAE; кстати &192; - это номер в Unicode кодировке или может например подразумеваться 'А' в windows-1251 ? 10) есть ли иные спецсимволы кроме lt; gt; amp; apos; quot; например nbsp; le; ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 00:19 |
|
Правила XML
|
|||
---|---|---|---|
#18+
Здесь ответы на все Ваши вопросы ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 01:13 |
|
Правила XML
|
|||
---|---|---|---|
#18+
SOFT FOR YOU, 1. UTF-8 2. Инструкций может быть сколько угодно и допускается их использование не только в прологе. 3. Нет. 4. Нет. 5. <node/> точно допустим. Это эквивалент <node></node> 6. Насчет разных кавычек не ясно. Остальное есть в спецификации. 7. Собирался ответить пустое, но нашел в спецификации следующий текст "An XML processor MUST always pass all characters in a document that are not markup through to the application". Так что ответ - не пустое. 8. Нет. 9. &#DD - десятичная запись, Ý - шестнадцатеричная. 10. Нет. Все это описано в официальной рекомендации XML . ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 01:21 |
|
Правила XML
|
|||
---|---|---|---|
#18+
_Vasilisk_ и особенно bazile Спасибо! я даже лучше нашёл: http://citforum.ru/internet/xmlspec/xmlspec.shtml но мне тяжело даются официальные документы мне проще на пальцах не понятно на счёт символов Диапазон символов Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] Пробельный символ S ::= (#x20 | #x9 | #xD | #xA)+ если в значении узла или атрибута встретится символ с кодом например #8 то он будет пробельным, обычным или это будет ошибкой ? про HEX я спрашивал, есть ли разница между #xae; и #xAE; ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 10:16 |
|
Правила XML
|
|||
---|---|---|---|
#18+
SOFT FOR YOUУ меня есть идея создать супер парсерОпять?? SOFT FOR YOUесли в значении узла или атрибута встретится символ с кодом например #8Это бэкспейс, сам подумай. Прочитай еще этот документ . SOFT FOR YOUпро HEX я спрашивал, есть ли разница между #xae; и #xAE;Ты собрался писать супер-парсер, не зная азбуки? Мало того, даже не видя ответов в собственных вопросах. Как ты думаешь, сколько символов (r) ты бы увидел, если бы была разница? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 10:35 |
|
Правила XML
|
|||
---|---|---|---|
#18+
AntonariyОпять?? снова AntonariyЭто бэкспейс, сам подумай. Прочитай еще этот документ. я тебе привёл цитату из спецификации XML нафига ты мне ASCII суёшь ? AntonariyТы собрался писать супер-парсер, не зная азбуки? Мало того, даже не видя ответов в собственных вопросах. Как ты думаешь, сколько символов (r) ты бы увидел, если бы была разница? ты не путай XML и HTML ужаснись, что ещё можно написать в HTML, что не сработает в XML: http://orlenok4.narod.ru/html.html ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 10:41 |
|
Правила XML
|
|||
---|---|---|---|
#18+
SOFT FOR YOUя даже лучше нашёл: http://citforum.ru/internet/xmlspec/xmlspec.shtml] http://citforum.ru/internet/xmlspec/xmlspec.shtml Обрати внимание что это перевод второй редакции. На сайте w3 пятая редакция уже. Так что между документами могут быть отличия. SOFT FOR YOUно мне тяжело даются официальные документы мне проще на пальцах В данном случае без чтения спецификации никак не обойтись. SOFT FOR YOUесли в значении узла или атрибута встретится символ с кодом например #8 то он будет пробельным, обычным или это будет ошибкой ? Ошибкой. SOFT FOR YOUпро HEX я спрашивал, есть ли разница между #xae; и #xAE; Нет. Можно даже #Ae или #aE написать :) SOFT FOR YOUя тебе привёл цитату из спецификации XML нафига ты мне ASCII суёшь ? Antonariy "сует" тебе ASCII т.к. первые 128 символов из кодировки UTF-8 совпадают с ASCII. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 11:00 |
|
Правила XML
|
|||
---|---|---|---|
#18+
bazile спасибо bazileAntonariy "сует" тебе ASCII т.к. первые 128 символов из кодировки UTF-8 совпадают с ASCII. я знаю просто к вопросу "пробельных символов" XML это не имеет никакого отношения ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 11:05 |
|
Правила XML
|
|||
---|---|---|---|
#18+
bazile7. Собирался ответить пустое, но нашел в спецификации следующий текст "An XML processor MUST always pass all characters in a document that are not markup through to the application". Так что ответ - не пустое. вот нашёл пункт 2.11 и не понимаю, что имеется ввиду оригинал2.11 End-of-Line Handling XML parsed entities are often stored in computer files which, for editing convenience, are organized into lines. These lines are typically separated by some combination of the characters CARRIAGE RETURN (#xD) and LINE FEED (#xA). To simplify the tasks of applications, the XML processor must behave as if it normalized all line breaks in external parsed entities (including the document entity) on input, before parsing, by translating both the two-character sequence #xD #xA and any #xD that is not followed by #xA to a single #xA character. перевод2.11 Обработка концов строк Часто разобранные сущности XML, помещенные в компьютерные файлы, для удобства редактирования представляются в виде набора строк. В качестве разделителя для таких строк обычно используется некая комбинация символов возврата каретки (#xD) и конца строки (#xA). Чтобы облегчить работу приложений, текст, который им передает XML процессор, должен быть таким, как если бы этот процессор при выводе перед обработкой нормализовал все концы строк во внешних разобранных сущностях (а также сущности самого документа). Осуществляться это должно путем замены последовательности из двух символов #xD #xA (а также одиночного #xD, за которым не следует #xA) одним символом #xA. если я правильно понял - подразумевается как раз node.value или attribute.value тоже имеется ввиду ? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 11:33 |
|
Правила XML
|
|||
---|---|---|---|
#18+
Имеются ввиду переносы между тегами и внутри тегов между атрибутами. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 11:46 |
|
Правила XML
|
|||
---|---|---|---|
#18+
ну я тебе про то и говорю bazile подтверждает #8 в XML - это ошибка ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 11:55 |
|
Правила XML
|
|||
---|---|---|---|
#18+
или ты про 2.11 ? тогда ты вообще не то пишешь ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 11:56 |
|
Правила XML
|
|||
---|---|---|---|
#18+
прочитал спецификацию, что то не нашёл адекватных ответов на 3-9 сейчас буду мучить блокнот и IE если есть что добавить - милости прошу ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 12:45 |
|
Правила XML
|
|||
---|---|---|---|
#18+
bazile, твои ответы признаны неадекватными ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 13:45 |
|
Правила XML
|
|||
---|---|---|---|
#18+
очевидно я про спецификацию, а не про bazile ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 14:14 |
|
Правила XML
|
|||
---|---|---|---|
#18+
очевидно, тебя не удовлетворили ответы базиля, раз ты полез за ними в спецификацию. да еще и добавки попросил. сложно тебе угодить :) ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 14:23 |
|
Правила XML
|
|||
---|---|---|---|
#18+
насколько я понял запись "<node >" допустима ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 14:49 |
|
Правила XML
|
|||
---|---|---|---|
#18+
Если она закрыта </node>, то да. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 14:51 |
|
Правила XML
|
|||
---|---|---|---|
#18+
я опробовал один чекер результаты такие если не согласны - говорите, проверим на других чекерах удивил node20 аналогично хорошо читается и обратный случай кавычек Код: xml 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40.
... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 15:15 |
|
Правила XML
|
|||
---|---|---|---|
#18+
Вдогонку: Код: xml 1.
... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 15:22 |
|
Правила XML
|
|||
---|---|---|---|
#18+
а что по твоему необычного в написании точки в имени ? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 15:31 |
|
Правила XML
|
|||
---|---|---|---|
#18+
а что по-твоему необычного в node20? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 15:33 |
|
Правила XML
|
|||
---|---|---|---|
#18+
использование кавычки внутри атрибута ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2013, 16:01 |
|
|
start [/forum/topic.php?fid=14&fpage=14&tid=1332387]: |
0ms |
get settings: |
11ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
167ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
65ms |
get tp. blocked users: |
2ms |
others: | 235ms |
total: | 518ms |
0 / 0 |