|
|
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
Как можно определить кодировку текстового файла http://stackoverflow.com/questions/499010/java-how-to-determine-the-correct-charset-encoding-of-a-stream Пробовал различные библиотеки не могу определить DOS ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 10:34 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
-=Koba=-Как можно определить кодировку текстового файла Для большинства кодировок - эмпирически. Многие, например, пересекаются. -=Koba=-Пробовал различные библиотеки не могу определить DOS Что за DOS? Нет такого стандарта. ASCII? Latin1? ISO-8859-1? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 10:40 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
Blazkowicz-=Koba=-Как можно определить кодировку текстового файла Для большинства кодировок - эмпирически. Многие, например, пересекаются. -=Koba=-Пробовал различные библиотеки не могу определить DOS Что за DOS? Нет такого стандарта. ASCII? Latin1? ISO-8859-1? Блокнот определяет как CP866 IBM866 В Java если подставить ее все проходиТ, но вот определить не может ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 10:50 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
вадяCP866 http://www.sci.kz/~sairan/kazcode/Table4.html Да, ты шо? А так же Cp437, Cp850, Cp852, Cp860 и другие . ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 10:52 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
можно подсмотреть нужное у мозиллы http://www-archive.mozilla.org/projects/intl/UniversalCharsetDetection.html опираются на статистику распределения символов ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 11:12 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
-=Koba=-Блокнот определяет как CP866 IBM866 В Java если подставить ее все проходиТ, но вот определить не может Я бы взял вот эту вот либу http://userguide.icu-project.org/conversion/detection Там есть cp1251, с некоторой русскоязычной статистикой. Соответственно можно взять её и дописать layout для CP866. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 11:22 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
llemingопираются на статистику распределения символов А как ещё для однобайтовых кодировок-то? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 11:26 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
BlazkowiczДа, ты шо? А так же Cp437, Cp850, Cp852, Cp860 да их много, но это популярная, и видишь, я угадал... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 11:29 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
вадяда их много, но это популярная, и видишь, я угадал... "Популярная" в данном регионе по каким-то совершенно мистическим причинам. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 11:31 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
Blazkowicz-=Koba=-Блокнот определяет как CP866 IBM866 В Java если подставить ее все проходиТ, но вот определить не может Я бы взял вот эту вот либу http://userguide.icu-project.org/conversion/detection Там есть cp1251, с некоторой русскоязычной статистикой. Соответственно можно взять её и дописать layout для CP866. Да 1251 определяет, но 866 не может ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 12:11 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
-=Koba=-Да 1251 определяет, но 866 не может Ну, не реализовано там 866. Если что-то не реализовано, значит надо взять и реализовать. На базе 1251 должно быть не так сложно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 12:12 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
Blazkowicz-=Koba=-Да 1251 определяет, но 866 не может Ну, не реализовано там 866. Если что-то не реализовано, значит надо взять и реализовать. На базе 1251 должно быть не так сложно. Да есть там IBM866 Вот только определить не может почему-то ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 12:39 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
-=Koba=-Да есть там IBM866 Вот только определить не может почему-то Я не нашел. Где он там? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 12:58 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
Blazkowicz-=Koba=-Да есть там IBM866 Вот только определить не может почему-то Я не нашел. Где он там? А это я с Apache-Any23 перепутал ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 13:16 |
|
||
|
Кодировка
|
|||
|---|---|---|---|
|
#18+
-=Koba=-А это я с Apache-Any23 перепутал Он использует Apache Tika. А тот в свою очередь основан на ICU, который я упоминал выше. Только в нём больше реализаций. В том числе 866. Реализовано именно так как я и предлагал выше. Скопипастили 1251 - поменяли layout. Код: java 1. 2. Качество угадывания 866 и cp1251 не должно отличатся. Возможно просто в вашем документе мало текста и он плохо ложиться на ngram-ы. Как вариант, можно самому дописать несколько ngram, на основе статистики из ваших 866 файлов. http://grepcode.com/file/repo1.maven.org/maven2/org.apache.tika/tika-parsers/1.9/org/apache/tika/parser/txt/CharsetRecog_sbcs.java ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2017, 14:39 |
|
||
|
|

start [/forum/topic.php?fid=59&msg=39382980&tid=2123273]: |
0ms |
get settings: |
9ms |
get forum list: |
21ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
58ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
78ms |
get tp. blocked users: |
2ms |
| others: | 231ms |
| total: | 423ms |

| 0 / 0 |
