В какой кодировке студия создает строки? / C++

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / C++ [игнор отключен] [закрыт для гостей] / В какой кодировке студия создает строки?

15 сообщений из 15, страница 1 из 1

В какой кодировке студия создает строки?

#34876669

Tubrik

Участник

Сообщения: 799

Рейтинг: 0 / 0

Если создать строку в студии типа:
char *str = "Строка", то при сохранении в файл она будет в win1251 (если не ошибаюсь), т.е. внутри программы такие строки хранятся в этой кодировке? так?

Если да, то где это задается в настройках студии, если вообще задается?

Теперь, у меня есть текст, например в файле, я его считываю в буфер, и мне нужно отыскать там эту строку. Для этого я должен быть уверен, что и текст считанный из файла и моя статическая строка созданная компилятором в одной кодировке.

1. Как мне узнать во время выполнения программы, в какой кодировке компилятор сохранил эти строки в исполняемом файле?
2. Как мне узнать в какой кодировке открытый мною файл? (в частности koi-r8 или win-1251)

...

Рейтинг:

0 / 0

18.10.2007, 00:12:29

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34876698

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

Tubrik пишет:
> Теперь, у меня есть текст, например в файле, я его считываю в буфер, и
> мне нужно отыскать там эту строку. Для этого я должен быть уверен, что и
> текст считанный из файла и моя статическая строка созданная компилятором
> в одной кодировке.
>
> 1. Как мне узнать во время выполнения программы, в какой кодировке
> компилятор сохранил эти строки в исполняемом файле?
> 2. Как мне узнать в какой кодировке открытый мною файл? (в частности
> koi-r8 или win-1251)

Бедный, как же его колбасит !

В общем, разясняю. Кодировка в файле такая, какую ты туда записал.
ЕЕ ПРОСТО НАДО ЗНАТЬ.
Во время выполнения программы узнать, в какой кодировке какой-то
файл нельзя. Надо ПРОСТО ЗНАТЬ В КАКОЙ ОНО КОДИРОВКЕ. Априоре.
Posted via ActualForum NNTP Server 1.4

...

Рейтинг:

0 / 0

18.10.2007, 00:56:22

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34876705

White Owl

Участник

Сообщения: 12 726

Рейтинг: 0 / 0

TubrikЕсли создать строку в студии типа:
char *str = "Строка", то при сохранении в файл она будет в win1251 (если не ошибаюсь), т.е. внутри программы такие строки хранятся в этой кодировке? так?Не совсем так. Если не ставить модификторов, то строковые константы будут превращены char массивы, в которых одна буква=один char точно в той кодировке в которой они написаны в исходном тексте программы. С модификатором может быть все что угодно. Например L"hello" сделает тебе стороку в UTF-16.
Текстовый редактор студии пишет константы в системной кодировке. То есть если у тебя в винда настроена по умолчанию на cp1251, то и константы будут в ней.

TubrikТеперь, у меня есть текст, например в файле, я его считываю в буфер, и мне нужно отыскать там эту строку. Для этого я должен быть уверен, что и текст считанный из файла и моя статическая строка созданная компилятором в одной кодировке.Переходи с текстовых констант на цифровые. Задай свою строку в виде:

Код: plaintext

char *hello = { 104 , 101 , 108 , 108 , 111 , 0 };

и ты будешь точно уверен в побайтовом значении строки.

Tubrik1. Как мне узнать во время выполнения программы, в какой кодировке компилятор сохранил эти строки в исполняемом файле?Во время выполнения? Ну например сделай себе несколько массивов, в каждый запиши строку "привет" цифрами, но в разных кодировках. А потом сравнивай текстовую константу привет со всеми этими массивами по очереди. С каким совпадет - значит в той кодировке и все твои константы.

Tubrik2. Как мне узнать в какой кодировке открытый мною файл? (в частности koi-r8 или win-1251)Сделать статистический анализ.
Самая часто встречаемая буква в русском тексте это "Е", вторая по частоте... не помню... Считаешь какой байтик в тексте встречается чаще всего, какой на втором месте, какой на третьем. Потом сравниваешь полученую группу лидеров с наборами этих букв в соотвествющей кодировке.

...

Рейтинг:

0 / 0

18.10.2007, 01:03:51

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34876729

Tubrik

Участник

Сообщения: 799

Рейтинг: 0 / 0

ок, понял

...

Рейтинг:

0 / 0

18.10.2007, 01:55:00

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34876822

Карабас Барабас

Участник

Откуда: СССР

Сообщения: 9 504

Рейтинг: 0 / 0

White OwlСамая часто встречаемая буква в русском тексте это "Е"хм, всегда считал, что это "О"
Posted via ActualForum NNTP Server 1.4

...

Рейтинг:

0 / 0

18.10.2007, 07:28:00

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34877157

pandrew

Гость

Карабас Барабас White OwlСамая часто встречаемая буква в русском тексте это "Е"хм, всегда считал, что это "О"
Целая кандидатская:
Автоматическое определение кодировки текста . Там же и частоты встречаемости.

...

Рейтинг:

0 / 0

18.10.2007, 10:51:45

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34878840

White Owl

Участник

Сообщения: 12 726

Рейтинг: 0 / 0

Карабас Барабас White OwlСамая часто встречаемая буква в русском тексте это "Е"хм, всегда считал, что это "О"эээ... ну да, с английским перепутал :(

...

Рейтинг:

0 / 0

18.10.2007, 17:17:59

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34878852

Akh

Участник

Откуда: берутся баги?

Сообщения: 4 561

Рейтинг: 0 / 0

оно?

...

Рейтинг:

0 / 0

18.10.2007, 17:22:52

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34878860

Tubrik

Участник

Сообщения: 799

Рейтинг: 0 / 0

Akh оно?
вроде да, благодарю

...

Рейтинг:

0 / 0

18.10.2007, 17:26:27

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34882326

Amdei

Участник

Откуда: Москва

Сообщения: 144

Рейтинг: 0 / 0

MasterZivВо время выполнения программы узнать, в какой кодировке какой-то
файл нельзя. Надо ПРОСТО ЗНАТЬ В КАКОЙ ОНО КОДИРОВКЕ. Априоре.
Коллега, позвольте не согласиться. Если на этапе выполнения программы неизвестно в какой кодировке находиться используемый ею текст (в т.ч. находящийся в файле) - то узнать её можно.
Можно даже заодно узнать на каком языке этот текст.

Единственно - это должен быть нормальный текст на этом языке. Абракадабра плохо распознаётся. :)

...

Рейтинг:

0 / 0

20.10.2007, 05:47:01

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34882327

Amdei

Участник

Откуда: Москва

Сообщения: 144

Рейтинг: 0 / 0

А, ну да, pandrew меня опередил...

...

Рейтинг:

0 / 0

20.10.2007, 05:48:18

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34883939

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

Amdei пишет:
> неизвестно в какой кодировке находиться используемый ею текст (в т.ч.
> находящийся в файле) - то узнать её можно.
> Можно даже заодно узнать на каком языке этот текст.

Достоверно, или с какой-то вероятностью ? Второе не называется
"можно узнать", оно называется "можно попробовать угадать".
Posted via ActualForum NNTP Server 1.4

...

Рейтинг:

0 / 0

22.10.2007, 10:24:23

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34888586

Amdei

Участник

Откуда: Москва

Сообщения: 144

Рейтинг: 0 / 0

Достоверно, естественно, не получиться.
Ибо метод-таки вероятностный. :)
Пример: MnogoSearch MGuesser
вероятность ошибки первого рода для текстов более 200-символов - менее 1%
И это при условии что там алгоритм совсем топорный.

Есть пример удачного решения и более сложной задачи: установления идентичности одного и тогоже имени человека на разных языках (почти на всех языках мира). Это шоб когда в новостях на разных континентах пишут про какую-то персону, знать что это про одну и ту же. Среднюю длинну и имени представляешь? Ошибок - кот наплакал. Но там и математика соответствующая.

...

Рейтинг:

0 / 0

23.10.2007, 16:34:05

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34889282

teras

Гость

Amdei wrote:
> Достоверно, естественно, не получиться.
> Ибо метод-таки вероятностный. :)
> Пример: MnogoSearch MGuesser
> вероятность ошибки первого рода для текстов более 200-символов - менее 1%
> И это при условии что там алгоритм совсем топорный.
>
> Есть пример удачного решения и более сложной задачи: установления
> идентичности одного и тогоже имени человека на разных языках (почти на
> всех языках мира). Это шоб когда в новостях на разных континентах пишут
> про какую-то персону, знать что это про одну и ту же. Среднюю длинну и
> имени представляешь? Ошибок - кот наплакал. Но там и математика
> соответствующая.

А что в этом сложого? имхо - все-таки сам текст новостей совпадает по
языку и кодировке с именами. Да и, я данного ресурса, сохраняется от
ыпуска к выпуску. На худой конец - имена короткие, их проще закодировать
во всех известных кодировках и вперед. Кстати, AFAIK, это и будет самой
серьезной математикой для пределения кодировки. Я как-то пробовал
написать такое - использовние цепочек из двух символов распознает
кодировку по 10-20 буквам нормального текста. И на практике (я использую
его в xemacs), некорректные распознавания были только для специально
подобраных мною текстов или очень кротких (одно-два слова). Хотя это,
все равно, не показатель.
Posted via ActualForum NNTP Server 1.4

...

Рейтинг:

0 / 0

23.10.2007, 20:02:15

| Ответить | Цитировать | Написать

В какой кодировке студия создает строки?

#34889631

Amdei

Участник

Откуда: Москва

Сообщения: 144

Рейтинг: 0 / 0

Там основная сложность не в том, чтобы определить в какой кодировке это имя написано, а в том, чтобы понять что это одно и то же имя.
Piter=Пётр. А как это по арабски будет, где гласные не пишутся?

...

Рейтинг:

0 / 0

24.10.2007, 01:18:53

| Ответить | Цитировать | Написать

15 сообщений из 15, страница 1 из 1

Форумы / C++ [игнор отключен] [закрыт для гостей] / В какой кодировке студия создает строки?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=57&msg=34876822&tid=2027958]:	0ms
get settings:	5ms
get forum list:	13ms
check forum access:	2ms
check topic access:	2ms
track hit:	422ms
get topic data:	6ms
get forum data:	1ms
get page messages:	29ms
get tp. blocked users:	1ms
others:	188ms

total:	669ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы