Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
Программа парсит страницы интернет и складывает их в поле text в utf-8. Чтобы не было ошибок типа такая последовательность байтов недопустима в utf-8 я предварительно специальным модулем убираю проблемные места. Сейчас надо написать нормальный поиск по полю. Я хочу разбить поле text по словам и записать слова в другую таблицу, соответственно также в кодировке utf-8. Вопросы: Правильно ли хранить всё это именно в utf-8? Может надо было изначально создать БД в utf-16 (или utf-32)? Есть ли какой то способ ваще забить на кодировки при этом сохранив полноценный поиск. зы сегодня около 6 миллионов строк, около 80 гб данных в таблице. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.07.2016, 09:37 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
azsxПрограмма парсит страницы интернет и складывает их в поле text в utf-8. Чтобы не было ошибок типа такая последовательность байтов недопустима в utf-8 я предварительно специальным модулем убираю проблемные места. Сейчас надо написать нормальный поиск по полю. Я хочу разбить поле text по словам и записать слова в другую таблицу, соответственно также в кодировке utf-8. Вопросы: Правильно ли хранить всё это именно в utf-8? Может надо было изначально создать БД в utf-16 (или utf-32)? Есть ли какой то способ ваще забить на кодировки при этом сохранив полноценный поиск. зы сегодня около 6 миллионов строк, около 80 гб данных в таблице. postgresql не умеет utf16/utf32 и совершенно непонятно чем вам utf16/utf32 помогут (ну кроме вероятного увеличения размера базы в 2 или 4 ре раза). и чем вас utf8 не устраивает? >>Есть ли какой то способ ваще забить на кодировки при этом сохранив полноценный поиск. так не бывает... так как лексика и морфология от используемого языка зависят. -- Maxim Boguk www.postgresql-consulting.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.07.2016, 12:20 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
автори чем вас utf8 не устраивает? меня не устраивает utf-8 так как при сохранении некоторых страниц, например, японских или арабских выходит ошибка "не могу сохранить так как используется неверная последовательность UTF-8". Ну или что-то подобное. Как же тогда решают проблему остальные? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.07.2016, 12:28 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
azsxавтори чем вас utf8 не устраивает? меня не устраивает utf-8 так как при сохранении некоторых страниц, например, японских или арабских выходит ошибка "не могу сохранить так как используется неверная последовательность UTF-8". Ну или что-то подобное. Как же тогда решают проблему остальные? значит это не валидный utf там.... и ни utf16 ни utf32 вам не помогут. И возможно у вас вообще на входе не utf там. В utf8 помещаются все теже символы что и в utf16/32. -- Maxim Boguk www.postgresql-consulting.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.07.2016, 12:31 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
тогда я совсем запутался. Бывает какая нибудь кодировка, которая решает проблему с шрифтами арабов, азиатов и европейцов сразу? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.07.2016, 12:40 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
azsxтогда я совсем запутался. Бывает какая нибудь кодировка, которая решает проблему с шрифтами арабов, азиатов и европейцов сразу? bytea ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.07.2016, 13:05 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
dimonz80azsxтогда я совсем запутался. Бывает какая нибудь кодировка, которая решает проблему с шрифтами арабов, азиатов и европейцов сразу? bytea (body bytea, codepage ?text) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.07.2016, 13:12 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
azsxтогда я совсем запутался. Бывает какая нибудь кодировка, которая решает проблему с шрифтами арабов, азиатов и европейцов сразу? utf8 решает (он прекрасно представляет любые символы) при условии что у вас именно входные данные в UTF8 а не в shift-js или что там еще у японцев с корейцами напридумано. А если вам произвольный бинарный мусор хранить надо то bytea но как вы это на слова будете делить и text search прикручивать - я не знаю. -- Maxim Boguk www.postgresql-consulting.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.07.2016, 13:26 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
Maxim Boguk вот и получается, что во всем мире чо только не напридумывали, в том числ японцы. А я хочу по этой каше кодировок сделать поиск. Как - не знаю. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.07.2016, 05:59 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
azsxMaxim Boguk вот и получается, что во всем мире чо только не напридумывали, в том числ японцы. А я хочу по этой каше кодировок сделать поиск. Как - не знаю. так вам надо входные данные в utf8 конвертировать, и уже сконвертированный результат сохранять в базе. даже у русского языка минимум 3 активно используемые кодировки есть (если не 4ре). По другому - никак. -- Maxim Boguk www.postgresql-consulting.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.07.2016, 10:05 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
azsxMaxim Boguk вот и получается, что во всем мире чо только не напридумывали, в том числ японцы. А я хочу по этой каше кодировок сделать поиск. Как - не знаю. Ну и своди все к UTF-8. Нагугли транскодинг для всякой дичи типа Shift JIS в UTF-8 для ЯП на котором тебе надо. На жабе например как-то так: Код: java 1. 2. Потом разберись с грамматиками языков, по которым ищещь. Морфология и словообразование прежде всего. Иначе azsxЯ хочу разбить поле text по словам и записать слова в другую таблицу не получится от слова никак. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.07.2016, 10:10 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
очень сложно мне будет, под паскаль всякие конверторы с японской кодировки искать. Но я попробую. Спрошу, чтобы отдельно темы не создавать, верно я понимаю, что если у меня данные записаны в text но я не знаю какой язык используется и чаще всего язык не один в записи, а несколько - то значит ловить с полнотекстового поиска встроенного в postgresql мне абсолютно нечего так как прежде всего при создании поля tsvector мне обязательно требуется указать язык для которого я создаю (индекс). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.07.2016, 11:56 |
|
||
|
Кодировка для всего?
|
|||
|---|---|---|---|
|
#18+
azsxочень сложно мне будет, под паскаль всякие конверторы с японской кодировки искать. Но я попробую. Спрошу, чтобы отдельно темы не создавать, верно я понимаю, что если у меня данные записаны в text но я не знаю какой язык используется и чаще всего язык не один в записи, а несколько - то значит ловить с полнотекстового поиска встроенного в postgresql мне абсолютно нечего так как прежде всего при создании поля tsvector мне обязательно требуется указать язык для которого я создаю (индекс). в каком то смысле да... FTS работает по какому то конкретному языку. Но можно иметь несколько FTS индексов по разным языкам, но вот иметь FTS на postgres который бы на многоязычных документах нормально работал - по моему нереально. -- Maxim Boguk www.postgresql-consulting.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.07.2016, 12:29 |
|
||
|
|

start [/forum/topic.php?fid=53&msg=39280245&tid=1997093]: |
0ms |
get settings: |
10ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
168ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
57ms |
get tp. blocked users: |
2ms |
| others: | 13ms |
| total: | 285ms |

| 0 / 0 |
