|
|
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
Здравствуйте, программирую одно приложение, где пользователь может работать со своими файлами но в моем приложении. Файлы текстовые. Я несколько раз стыкнулся с проблемами, что например читаю файл в UTF-8, а он UTF-16(LE) или наоборот. Иногда получаю "крокозябры". Поэтому нашел https://code.google.com/archive/p/juniversalchardet/ и с его помощью проверяю кодировку. Внимание вопрос. Если я определил кодировку отличную от UTF-8, а содержимое файла мне нужно в UTF-8 - мои действия? Читаю файл в нужной кодировке и перезаписываю старый в кодировке UTF-8? Как это провернуть максимально быстро с точки зрения перформенса? Спасибо за подсказки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.10.2016, 20:20 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
_webdev_Здравствуйте, программирую одно приложение, где пользователь может работать со своими файлами но в моем приложении. Файлы текстовые. Я несколько раз стыкнулся с проблемами, что например читаю файл в UTF-8, а он UTF-16(LE) или наоборот. Иногда получаю "крокозябры". Поэтому нашел https://code.google.com/archive/p/juniversalchardet/ и с его помощью проверяю кодировку. Внимание вопрос. Если я определил кодировку отличную от UTF-8, а содержимое файла мне нужно в UTF-8 - мои действия? Читаю файл в нужной кодировке и перезаписываю старый в кодировке UTF-8? Как это провернуть максимально быстро с точки зрения перформенса? Спасибо за подсказки. Записать в новый удалить старый переименовать новый в старый, главное не побайтно писать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.10.2016, 10:03 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
llemingглавное не побайтно писать. - не понял.. ((( А как файл записывать? Файл же и есть массив байтов.. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 10:13 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
_webdev_llemingглавное не побайтно писать. - не понял.. ((( А как файл записывать? Файл же и есть массив байтов.. _webdev_Как это провернуть максимально быстро с точки зрения перформенса? http://www.realcoding.net/articles/glava-18-potoki-vvodavyvoda.html#4 буферизированный IO ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 11:36 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
так и знал что где есть почти готовое решение Apache Commons FileUtils Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. если я правильно понял FileUtils даже проблему с BOM порешает сама. Из минусов приведенного решения это то предполагает что файлы легко влезают в память т.е. небольшие по размеру. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 11:41 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
llemingИз минусов приведенного решения это то предполагает что файлы легко влезают в память т.е. небольшие по размеру. Используй IOUtils.copy(), а текстовые стримы с нужными кодировками создавай сам. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 11:49 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
lleming, это какой _текстовый_ файл в память не влезает? ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 11:53 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
Petro123это какой _текстовый_ файл в память не влезает? ) Гы. Легко генерю трейс-файлы на десятки гигов в час. :) Ночной трейс перестает влезать в память. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 12:09 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
llemingтак и знал что где есть почти готовое решение Без готового решения, кода не сильно больше: http://stackoverflow.com/a/3018806 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 12:14 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
Сергей АрсеньевPetro123это какой _текстовый_ файл в память не влезает? ) Гы. Легко генерю трейс-файлы на десятки гигов в час. :) Ночной трейс перестает влезать в память. уровень логирования повысь). Или ротацию. Генерировать и туалетную бумагу можно). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 12:17 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
Petro123lleming, это какой _текстовый_ файл в память не влезает? ) в теории возможно. на практике конешно врядли. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 14:07 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
llemingтак и знал что где есть почти готовое решение Apache Commons FileUtils - Пасиб, да, в этом проекте я пользуюсь (com.google.common.io) мне хотелось понять принцип, не упускаю ли я чего. На счет величины, то это не мой случай, у меня размер файла макс 1Мб будет, И да, хороший пункт с BOM. У меня вот решение. Код: java 1. 2. 3. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 14:24 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
_webdev_, А если случится : EF BB BF ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 14:30 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
Petro123lleming, это какой _текстовый_ файл в память не влезает? ) Логи гуглового рекламного сервера большого клиента. Один файл на час. gz файл на 2Гб - легко. Распакованный- ну ты понял ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 15:32 |
|
||
|
Разбор полётов с кодировками или приведение отличных от UTF-8 в UTF-8? Стратегия?
|
|||
|---|---|---|---|
|
#18+
Сергей Арсеньев_webdev_, А если случится : EF BB BF ? - А такого не знаю, не читал. Просто была проблема, и вот таким способом она у меня решилась... Нужно будет почитать... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.10.2016, 16:08 |
|
||
|
|

start [/forum/topic.php?fid=59&fpage=84&tid=2123574]: |
0ms |
get settings: |
8ms |
get forum list: |
9ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
17ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
39ms |
get tp. blocked users: |
1ms |
| others: | 251ms |
| total: | 338ms |

| 0 / 0 |
