|
|
|
Много кодировок в базе + поиск
|
|||
|---|---|---|---|
|
#18+
Знаю, знаю, заклюете :) Ну да ладно. В большинстве вопросов об организации поиска по русским текстам предлагают изменить кодировку на ... эээ ... соответствующую и забыть про мучения. Но. У меня уже который год идет работа с сайтами, едиными в трех лицах, то есть языках - английском, русском и турецком (соответственно, latin1, эээ win-1251 и win-1254). Английский - побоку, он все равно в любую кодировку вписывается, а вот турецкий и русский пересекаются - увы. И вот! Наконец! Писец подкрался незаметно :) Заставляют, понимаете ли, сварганить поиск, да не просто, а всеобъемлющий, да еще по всему сайту. Со всеми вытекающими релевантностями и прочая и прочая. Годом раньше я себе сварганил этакое подобие инвертированных файлов в мускле. Ничего, работает, но вот на русских и турецких словах, естественно, спотыкается. Проблема еще в том, что мускл+пыхыпы конвертируют все в UTF-8, негодники, что ситуацию с одной стороны облегчает, а сдругой - усугубляет. Что делать? (извечный вопрос, увы) Пересмотреть ли свой алгоритм инвертированных файлов? Или, как посоветовали кому-то в одном из форумов, разбивать входящие тексты на подстроки из четырех символов и хранить их и связочную таблицу "подстрока - документ"? Или есть еще варианты? Поможите, люди добрые, бо мы сами не местные :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.02.2005, 19:05 |
|
||
|
Много кодировок в базе + поиск
|
|||
|---|---|---|---|
|
#18+
вариант - перейти на версию 4.1 где можно назначать разные character sets и разные collations для разных полей. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.02.2005, 19:33 |
|
||
|
|

start [/forum/topic.php?fid=47&tid=1854371]: |
0ms |
get settings: |
9ms |
get forum list: |
17ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
41ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
39ms |
get tp. blocked users: |
1ms |
| others: | 227ms |
| total: | 353ms |

| 0 / 0 |
