|
|
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
Basil A. SidorovЗависит от настроек редактора, но шанс, что это будет CP866 - практически нулевой. настройки редактора я задать могу - пусть это utf8 что ожидать тогда? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:21 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
вадяначну искаить , к примеру , строку , набранную в ide-кудакторе , лалалал Понимания что из себя представляет "кодировка" не прибавится. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:23 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
а все понимают какие вопросы остались у автора? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:25 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
Blazkowiczонимания что из себя представляет "кодировка" не прибавится. не спорю, но что ожидать и как быть? надо привести к одной и той-же "кодировке", одному набору символов. т.е. надо привести неизвестно что к utf8 как быть? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:27 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
вадяон и OEM может отобразить - если выставить шрифт terminal1. oem2ansi/ansi2oem было в винде уже тогда, когда в винде ещё не было никакого юникода. 2. Все поддерживаемые кодировки отображаются без смены шрифта. Чувствуете разницу?вот и и спрашиваю...Задачу какую решаете? Поиск? Основных подходов три: 1. Использовать возможности рантайма для работы со строками. Требуется перекодировать входные байты штатным функционалом; 2. Использовать универсальную кодировку. Требуется реализовать то, что уже умеет рантайм; 3. Использовать кодировку того текста, в котором ведётся поиск. Требуется реализовать то, что уже умеет рантайм, помножив геморрой на число поддерживаемых кодировок. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:29 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
Basil A. Sidorov1. oem2ansi/ansi2oem было в винде уже тогда, когда в винде ещё не было никакого юникода. 2. Все поддерживаемые кодировки отображаются без смены шрифта. Чувствуете разницу? я и говорю - может отобразить. т.е. найдено соответствие между кодом и отображаемым избражением соответствующему этому коду. код-изображение(картинка) и задаёт шрифт. Basil A. SidorovОсновных подходов три: 1. Использовать возможности рантайма для работы со строками. Требуется перекодировать входные байты штатным функционалом; 2. Использовать универсальную кодировку. Требуется реализовать то, что уже умеет рантайм; 3. Использовать кодировку того текста, в котором ведётся поиск. Требуется реализовать то, что уже умеет рантайм, помножив геморрой на число поддерживаемых кодировок. хорошие рекоммендации. а как их применить к конкретному случаю? мой вариант чтения и Код: java 1. 2. позволяют записать "читабельные" файлы в разных "кодировках" т.е. с "кодировкой" исходного файла разобрались. вопрос остался - как организовать поиск? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:39 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
Dmitry.а все понимают какие вопросы остались у автора? Нет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:45 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
вадявопрос остался - как организовать поиск? Есть всякие либы. Единственная проблема в том что для однобайтовых кодировок очень желательно знать язык файла. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:47 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
BlazkowiczDmitry.а все понимают какие вопросы остались у автора? Нет. если что прочитано - неизвестно, как быть? Basil A. SidorovНеизвестно, т.к. String - базовый (и обязательный) тип Java SE API. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:49 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
Basil A. SidorovmaytonВот если взять xml - то его спека однозначно и жестко определяет хедерДа неужели? Допустим, что никто ничего не накосячил. Вы знаете способ без ошибок прочитать заголовок xml-файл с кодировкой UTF16LE/UTF16BE? Я понял. Вы имеете в виду что в стеке проверок сначала идет BOM, а потом интерпретация <?xml encoding="..." ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:50 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
BlazkowiczЕсть всякие либы. Единственная проблема в том что для однобайтовых кодировок очень желательно знать язык файла. русские и возможно латинские символы ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 18:50 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
вадяBlazkowiczЕсть всякие либы. Единственная проблема в том что для однобайтовых кодировок очень желательно знать язык файла. русские и возможно латинские символы Давай порассуждаем откуда вообще в приложения приходят сведенья о кодировках. 1) Из http-header. Здесь как-бе все просто. Есть твой сервак. И ты сам решил что весь контент - например в utf-8 https://www.w3.org/International/articles/http-charset/index 2) Из настроек приложения. Тут как-бе тоже все ясно. Есть программный комплекс. Ты - его конфигуратор. И решил что для предприятия и его документооборота будет юзаться отчетность и загрузки в формате *.txt с кодировкой 1251. И НИИБЕТ. А все кто не согласны идут в сад. Или со слезами на глазах просят тебя-же оказать помощь в перекодировке Тоже самое - настройки JDBC/OCI. Создал базячку в CL8WSWIN1251. Впиндюрил ее везде где только можно у пользователях - и сиди себе пей чай. 3) Из операционки. Если ты почитатель Пингвина Тукса. То ты навреное создавал дохрена текстовых файлов или конфигов прямо в консоли. При этом будет задействована базовая кодировка ОС которая прошита как умолчательная (где-то). В системных параметрах или в пользовательских или в текущей консоли. Неважно. Вобщем сел. Забил конфиг. И НИИБЕТ в чем. Главно дело что Пигвин ее 100% знает ибо родная. 4) И есть наверное алгоримы распознавания кодировок. Вангую что все создатели поисковых ботов и краулеров и индексирующих серверов типа yandex, google, yahoo решали эту задачу. Есть дохрена сайтов которые не отдают кодировку и некорректно сетят ее в <meta charset="...." В лихие 2000-е я часто получал кракозябры в браузерах. Думаю вы - тоже. Какие либы для детектирования - ХЗ. Надо искать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 19:10 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
maytonЯ понял. Вы имеете в виду что в стеке проверок сначала идет BOM, а потом интерпретация <?xml encoding="..." ?BE/LE - это без маркера порядка байтов. С BOM не лучше, но без него - проблема нагляднее: нужно знать кодировку, чтобы прочитать какая кодировка используется. Прикол с unzip.zip помните? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 19:14 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
mayton, если копнуть историю, то файлы с которыми придётся работать формируются программым обеспечением тех времен, когда слово браузер ещё знали только отдельные личности. поэтому тут - как бы ну.... и как я сказал - с кодировкой разобрались - писать получается , в разных кодировках. вопрос - как привести к одному знаменателю -набранное в редакторе и прочитанное, чтоб распарсить полученное при чтении из файла. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 19:39 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
скорее надо выложить сюда файл... тогда всем будет ясно в чем вопрос... кстати всем доброго! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 19:45 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
вадяи как я сказал - с кодировкой разобрались - писать получается , в разных кодировках. вопрос - как привести к одному знаменателю -набранное в редакторе и прочитанное, чтоб распарсить полученное при чтении из файла. А за это, мой дорогой друг мы и получаем деньги Я имею в виду синтез решений. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 19:46 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
maytonА за это, мой дорогой друг мы и получаем деньги Я имею в виду синтез решений.вот и хочется получать за рабочий код. вот такая конструкция t Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. находит... но вот это Basil A. SidorovНеизвестно, т.к. String - базовый (и обязательный) тип Java SE API как-то не понятно что получилось ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 20:08 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
Ты можешь объяснить как работает этот фрагмент кода? Код: java 1. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 20:15 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
mayton, Код: plaintext 1. 2. 3. 4. 5. 6. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 20:21 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
вадя..... грубо - сколько надо памяти под файл Вот это верно сказано. ГРУБО ! Правда желательно: грубо и матом. Тогда толку будет больше ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 20:34 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
Интересно, а в школе еще такой предмет как "информатика" остался? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 20:39 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
вадя, я не это хотел услышать. Твой алгоритм (а это скорее всего твой) должен найти слово "ЛАЛАЛА" в текстовом файле. Верно? Для того чтобы он корректно отработал. Мы должны гарантировать что fin.available() будет равно File.length() иначе мы что-то упустим или разрежем эту фразу на две части и как следствие не получим позитивный кейс даже в том случае когда ЛАЛАЛА действительно есть внутри файла. Скажи пожалуйста ты тестировал этот код на реально больших файлах (десятки и сотни мегабайт)? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 20:55 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
mayton, ну не надо считаьб меня лохом. конечно я знаю облать применения такого , и файлы в десятки и сотни метров он не готов тянуть. есть реальные размеры файлов в единицы метров. которые такой метод кушает без проблем. на файле 1++мег я протестировал. это не окончательное решение , есть вариант и построчного чтения, и пока выбирается оптимальный вариант . на данном этапе стоит(стоял) вопрос с кодировкой. Leonid KudryavtsevИнтересно, а в школе еще такой предмет как "информатика" остался? это к чему такие высказывания? предлагаешь задавать размер наугад? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 21:07 |
|
||
|
Про кодировку из cp866 в utf8
|
|||
|---|---|---|---|
|
#18+
вадяmayton, ну не надо считаьб меня лохом. конечно я знаю облать применения такого , и файлы в десятки и сотни метров он не готов тянуть. есть реальные размеры файлов в единицы метров. которые такой метод кушает без проблем. на файле 1++мег я протестировал. это не окончательное решение , есть вариант и построчного чтения, и пока выбирается оптимальный вариант . на данном этапе стоит(стоял) вопрос с кодировкой. Я этого не говорил. Тебе Блажкович дал коробочное решение 20544071 . Которое работает и проверено. Но ты зачем-то захотел конвертить через байтовые массивы. Зачем? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.06.2017, 21:11 |
|
||
|
|

start [/forum/topic.php?fid=59&msg=39467201&tid=2122862]: |
0ms |
get settings: |
8ms |
get forum list: |
21ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
71ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
72ms |
get tp. blocked users: |
1ms |
| others: | 242ms |
| total: | 437ms |

| 0 / 0 |
