|
|
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
Значит есть у меня некий в UTF-8 (imo) записанный xml файл. (выдранный из второго OpenOffice-a) Код: plaintext 1. 2. 3. 4. 5. 6. 7. Дык вот, когда я эту заразу вчитываю в дом то ява превращает & l t ; в обычную угловую скобку, а крякозябры в правильный русскиий текст что, конечно приятно но вот только в результате парсер считает что у меня незакрытый элемент, а на попытку вчитать русский текст в дом выдаёт ошибку Код: plaintext 1. 2. 3. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 11:54 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
Сузил вопрос:при вызове метода getTextContent & l t ; превращается в < . Как с этим бороться? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 13:33 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
чем "вчитываешь"? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 13:37 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 13:46 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
Все, что связанно с DOM зачем? Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. ну там еще над переменной data может поколдавать придется. И то, что будет все ок, гарантии не даю, сейчас негде проверить. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 14:03 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
колдование над переменной data (вроде так надо) Код: plaintext 1. 2. 3. 4. 5. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 14:15 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
ты не въехал в суть. есть: testxml.xml Код: plaintext 1. 2. 3. 4. есть код: Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. его результат: Код: plaintext 1. а надо: Код: plaintext 1. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 14:17 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
фукинг сервис. надо читать так: а надо: Код: plaintext ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 14:18 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
ты не въехал в суть. Если это мне, то я въехал. Почему так происходит не знаю. Я просто немного оптимизировал метод, который показал Naug, потму как создавть DOM дерево там явно не надо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 14:24 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
Спасиб за совет по дому- чем меньше сущностей тем меньше ошибок. Хочу уточнить вопрос - выяснилось что сама трансформация работает нормально. Ошибка в другом месте - когда я вытаскиваю содержимое нодов из Дома getTextContent выдаёт не то что я ожидаю. Для сравнения я в дебагере прочитал сначала исходный файл (по строчкам) и сравнил с тем что выдаёт getTextcontent получилось: правильно: tt: java.lang.String = " <p><Bloody</p>" value: char[] = {char[25]@348} [0] = ' ' 32 [1] = ' ' 32 [2] = ' ' 32 [3] = ' ' 32 [4] = ' ' 32 [5] = ' ' 32 [6] = ' ' 32 [7] = ' ' 32 [8] = '<' 60 [9] = 'p' 112 [10] = '>' 62 [11] = '&' 38 [12] = 'l' 108 [13] = 't' 116 [14] = ';' 59 [15] = 'B' 66 [16] = 'l' 108 [17] = 'o' 111 [18] = 'o' 111 [19] = 'd' 100 [20] = 'y' 121 [21] = '<' 60 [22] = '/' 47 [23] = 'p' 112 [24] = '>' 62 offset: int = 0 count: int = 25 hash: int = 0 getTextcontent: [0] = '<' 60 [1] = 'B' 66 [2] = 'l' 108 [3] = 'o' 111 [4] = 'o' 111 [5] = 'd' 100 [6] = 'y' 121 C русским также заморочка - правильно: [0] = ' ' 32 [1] = ' ' 32 [2] = ' ' 32 [3] = ' ' 32 [4] = ' ' 32 [5] = ' ' 32 [6] = ' ' 32 [7] = ' ' 32 [8] = '<' 60 [9] = 'p' 112 [10] = '>' 62 [11] = 'Р' 1056 [12] = ' ' 160 [13] = 'С' 1057 [14] = 'ѓ' 1107 [15] = 'С' 1057 [16] = 'Ѓ' 1027 [17] = 'Р' 1056 [18] = 'ѕ' 1109 [19] = ' ' 32 [20] = '<' 60 [21] = '/' 47 [22] = 'p' 112 [23] = '>' 62 А GetTextContent вертает: [0] = 'Р' 1056 [1] = 'у' 1091 [2] = 'с' 1089 [3] = 'о' 1086 [4] = ' ' 32 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 14:57 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
А ты попробуй другой парсер, заработает, вот и ладно :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 15:09 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
какой другой парсер ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 15:15 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
Naugкакой другой парсер ну например xerces2 нужно будет в classpath указать пути к этим двум - xercesImpl.jar и xmlparserAPIs.jar ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 15:24 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
Оффтоп:err, прошу не банить за вопрос про classpath - я запустил прогу из идеи вот такой строкой: "D:\Program Files\Java\jdk1.5.0\bin\java" -classpath D:\Xerces-J-bin.2.6.2\xerces-2_6_2\xmlParserAPIs.jar;D:\Xerces-J-tools262\tools\xercesImpl.jar -Didea.launcher.port=7538 -Didea.launcher.library=D:\IntelliJ-IDEA-4.5\bin\breakgen.dll -Dfile.encoding=windows-1251 com.intellij.rt.execution.application.AppMain Stylizer получил: java.lang.NoClassDefFoundError: com/intellij/rt/execution/application/AppMain За что это он? Я так понимаю что он пытается зарустить com/intellij/rt/execution/application/AppMain, но зачем? По существу: Пофиксил структуру моих классов - с кодировкой русских букв всё наладилось. & l t ; фиксица нежелает ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 17:44 |
|
||
|
очередная трабла с кодировкой xml
|
|||
|---|---|---|---|
|
#18+
А можешь проще сделать, создай jar своей программы и bat файл к нему, примерно такого содержания: java -cp somePath/yourProgram.jar;somePath/xercesImpl.jar;somePath/xmlParserAPIs.jar somePackage.MainClass ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2005, 17:55 |
|
||
|
|

start [/forum/topic.php?fid=59&msg=32984690&tid=2152709]: |
0ms |
get settings: |
8ms |
get forum list: |
11ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
31ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
31ms |
get tp. blocked users: |
1ms |
| others: | 222ms |
| total: | 320ms |

| 0 / 0 |
