powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Java [игнор отключен] [закрыт для гостей] / Кодировка
16 сообщений из 16, страница 1 из 1
Кодировка
    #39382940
Фотография -=Koba=-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Как можно определить кодировку текстового файла

http://stackoverflow.com/questions/499010/java-how-to-determine-the-correct-charset-encoding-of-a-stream
Пробовал различные библиотеки не могу определить DOS
...
Рейтинг: 0 / 0
Кодировка
    #39382944
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-=Koba=-Как можно определить кодировку текстового файла
Для большинства кодировок - эмпирически. Многие, например, пересекаются.

-=Koba=-Пробовал различные библиотеки не могу определить DOS
Что за DOS? Нет такого стандарта. ASCII? Latin1? ISO-8859-1?
...
Рейтинг: 0 / 0
Кодировка
    #39382952
вадя
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Кодировка
    #39382956
Фотография -=Koba=-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Blazkowicz-=Koba=-Как можно определить кодировку текстового файла
Для большинства кодировок - эмпирически. Многие, например, пересекаются.

-=Koba=-Пробовал различные библиотеки не могу определить DOS
Что за DOS? Нет такого стандарта. ASCII? Latin1? ISO-8859-1?

Блокнот определяет как CP866 IBM866
В Java если подставить ее все проходиТ, но вот определить не может
...
Рейтинг: 0 / 0
Кодировка
    #39382960
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вадяCP866
http://www.sci.kz/~sairan/kazcode/Table4.html
Да, ты шо?
А так же Cp437, Cp850, Cp852, Cp860 и другие .
...
Рейтинг: 0 / 0
Кодировка
    #39382970
lleming
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
можно подсмотреть нужное у мозиллы
http://www-archive.mozilla.org/projects/intl/UniversalCharsetDetection.html
опираются на статистику распределения символов
...
Рейтинг: 0 / 0
Кодировка
    #39382977
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-=Koba=-Блокнот определяет как CP866 IBM866
В Java если подставить ее все проходиТ, но вот определить не может
Я бы взял вот эту вот либу
http://userguide.icu-project.org/conversion/detection
Там есть cp1251, с некоторой русскоязычной статистикой.
Соответственно можно взять её и дописать layout для CP866.
...
Рейтинг: 0 / 0
Кодировка
    #39382980
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
llemingопираются на статистику распределения символов
А как ещё для однобайтовых кодировок-то?
...
Рейтинг: 0 / 0
Кодировка
    #39382983
вадя
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BlazkowiczДа, ты шо?
А так же Cp437, Cp850, Cp852, Cp860
да их много, но это популярная, и видишь, я угадал...
...
Рейтинг: 0 / 0
Кодировка
    #39382986
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вадяда их много, но это популярная, и видишь, я угадал...
"Популярная" в данном регионе по каким-то совершенно мистическим причинам.
...
Рейтинг: 0 / 0
Кодировка
    #39383011
Фотография -=Koba=-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Blazkowicz-=Koba=-Блокнот определяет как CP866 IBM866
В Java если подставить ее все проходиТ, но вот определить не может
Я бы взял вот эту вот либу
http://userguide.icu-project.org/conversion/detection
Там есть cp1251, с некоторой русскоязычной статистикой.
Соответственно можно взять её и дописать layout для CP866.
Да 1251 определяет, но 866 не может
...
Рейтинг: 0 / 0
Кодировка
    #39383015
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-=Koba=-Да 1251 определяет, но 866 не может
Ну, не реализовано там 866. Если что-то не реализовано, значит надо взять и реализовать. На базе 1251 должно быть не так сложно.
...
Рейтинг: 0 / 0
Кодировка
    #39383046
Фотография -=Koba=-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Blazkowicz-=Koba=-Да 1251 определяет, но 866 не может
Ну, не реализовано там 866. Если что-то не реализовано, значит надо взять и реализовать. На базе 1251 должно быть не так сложно.
Да есть там IBM866
Вот только определить не может почему-то
...
Рейтинг: 0 / 0
Кодировка
    #39383074
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-=Koba=-Да есть там IBM866
Вот только определить не может почему-то
Я не нашел. Где он там?
...
Рейтинг: 0 / 0
Кодировка
    #39383097
Фотография -=Koba=-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Blazkowicz-=Koba=-Да есть там IBM866
Вот только определить не может почему-то
Я не нашел. Где он там?

А это я с Apache-Any23 перепутал
...
Рейтинг: 0 / 0
Кодировка
    #39383194
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
-=Koba=-А это я с Apache-Any23 перепутал
Он использует Apache Tika. А тот в свою очередь основан на ICU, который я упоминал выше. Только в нём больше реализаций. В том числе 866. Реализовано именно так как я и предлагал выше. Скопипастили 1251 - поменяли layout.

Код: java
1.
2.
        
// bytemap converts cp866 chars to cp1251 chars, so ngrams are still unchanged



Качество угадывания 866 и cp1251 не должно отличатся. Возможно просто в вашем документе мало текста и он плохо ложиться на ngram-ы. Как вариант, можно самому дописать несколько ngram, на основе статистики из ваших 866 файлов.
http://grepcode.com/file/repo1.maven.org/maven2/org.apache.tika/tika-parsers/1.9/org/apache/tika/parser/txt/CharsetRecog_sbcs.java
...
Рейтинг: 0 / 0
16 сообщений из 16, страница 1 из 1
Форумы / Java [игнор отключен] [закрыт для гостей] / Кодировка
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]