|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Добрый день! БД на Oracle 19.5. Есть таблица (50 миллионов строк), в которой нужно производить поиск подстроки (значения задаются пользователем) по нескольким текстовым полям (name1, name2, name3), например: Код: sql 1. 2. 3. 4. 5.
Поиск работает, но медленно. IN MEMORY не помогло (ускорило раза в 2 всего). Обычные индексы тут не помогут из-за левого %, поэтому были созданы текстовые индексы на каждое из полей поиска (name1, name2, name3). Соответственно, запрос стал выглядеть следующим образом: Код: sql 1. 2. 3. 4. 5.
Вроде бы проблема решилась, но недавно оказалось, что в текстовых индексах есть ограничения на повторяющиеся значения, и при поиске некоторых значений, например: Код: sql 1. 2. 3.
возникает ошибка: Код: sql 1. 2. 3.
Пробовали увеличивать параметр MAX_TERMS с 2000 до 50000, но не помогло, пересоздавали индекс так: Код: plsql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72.
Подскажите, пожалуйста. Может быть я как-то неправильно создаю индексы? Может у кого-нибудь есть опыт использования текстовых индексов для решения подобных проблем? Или может реализовывали создание своих поисковых систем? Я уже думаю над созданием отдельной таблицы, в которую наинсертить все возможные подстроки, создать на нее индекс и искать в ней по like только с правым %, т.е. например, для значения "12 34 567890" во вспомогательную таблицу наинсертятся значения: 12 34 567890 2 34 567890 34 567890 4 567890 567890 67890 7890 890 90 0 Только вот пока не очень представляю, какие сложности могут возникнуть над сопровождением такой таблицы. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.02.2021, 18:02 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Андрей_7777, Код: plsql 1.
Вам надо почитать про операторы contains. То что вы вводите ищет на самом деле: name like '%34' or name like '57' or name like 123890%' ... |
|||
:
Нравится:
Не нравится:
|
|||
18.02.2021, 18:34 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Андрей_7777 Или может реализовывали создание своих поисковых систем? Я уже думаю над созданием отдельной таблицы, в которую наинсертить все возможные подстроки, создать на нее индекс и искать в ней по like только с правым %, т.е. например, для значения "12 34 567890" во вспомогательную таблицу наинсертятся значения: 12 34 567890 2 34 567890 34 567890 4 567890 567890 67890 7890 890 90 0 Только вот пока не очень представляю, какие сложности могут возникнуть над сопровождением такой таблицы. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.02.2021, 18:41 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Помимо этого, вас надо ещё прочитать про то как добавить пробел в "токены" (printjoins, skipjoins) ... |
|||
:
Нравится:
Не нравится:
|
|||
18.02.2021, 18:41 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Андрей_7777 по нескольким текстовым полям (name1, name2, name3) ... |
|||
:
Нравится:
Не нравится:
|
|||
18.02.2021, 20:42 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
miksoft Андрей_7777 по нескольким текстовым полям (name1, name2, name3) Шаблон поиска очень похож на номер паспорта. Наверняка персональные данные длинной строкой. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 01:31 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Sayan Malakshinov Помимо этого, вас надо ещё прочитать про то как добавить пробел в "токены" (printjoins, skipjoins) Sayan Malakshinov, cпасибо большое. Попробовал добавить пробел в токен следующим образом (перед символом _ указал пробел): Код: sql 1. 2.
Но это не помогло, проблемный select заваливается с той же ошибкой. Также пробовал исключать пробел: Код: sql 1. 2. 3. 4.
Тоже не помогло, видимо из-за этого: whitespace Specify the characters that are treated as blank spaces between tokens. BASIC_LEXER uses whitespace characters in conjunction with punctuations and newline characters to identify character strings that serve as sentence delimiters for sentence and paragraph searching. The predefined default values for whitespace are space and tab. These values cannot be changed. Specifying characters as whitespace characters adds to these defaults. Не знаете, как сделать, чтобы пробел обрабатывался, как обычный символ? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 06:57 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
andreymx Андрей_7777 Или может реализовывали создание своих поисковых систем? Я уже думаю над созданием отдельной таблицы, в которую наинсертить все возможные подстроки, создать на нее индекс и искать в ней по like только с правым %, т.е. например, для значения "12 34 567890" во вспомогательную таблицу наинсертятся значения: 12 34 567890 2 34 567890 34 567890 4 567890 567890 67890 7890 890 90 0 Только вот пока не очень представляю, какие сложности могут возникнуть над сопровождением такой таблицы. andreymx, Количество строк в ней примерно вычислил, несколько миллиардов получается, это не очень большой размер для нашей БД. Я понимаю, что это кривое решение, просто рассматриваю все варианты. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 06:59 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Правильный Вася miksoft пропущено... А что это за поля? они поддаются нормализации? Шаблон поиска очень похож на номер паспорта. Наверняка персональные данные длинной строкой. Все верно, это шаблон паспорта, в других полях он тоже может быть. Поля нормализации не поддаются. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 07:03 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
[quot Андрей_7777#22283232] Sayan Malakshinov ... Не знаете, как сделать, чтобы пробел обрабатывался, как обычный символ? Или м.б. создать в таблице дополнительные поля, в которых будут храниться значения без пробелов, и создать на них текстовые индексы? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 08:36 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Андрей_7777, А таблица сильно широкая? Какая средняя длина записи? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 12:50 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
miksoft Андрей_7777, А таблица сильно широкая? Какая средняя длина записи? Средняя длина поля 20 символов ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 14:13 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Андрей_7777Все верно, это шаблон паспорта Тогда откуда приходит этот шаблон, что он проверяется на вхождение, а не на полное совпадение? Типа "я помню только три цифры в середине, остальное забыл"?.. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 14:24 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov, очень похоже что у ТС сделаны 3 поля как Документ1,Документ2,Документ3. типа загран, паспорт и водительское. в какое поле, что попадет никто не знает. вот он и пытается это решить :) ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 14:59 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Вопрос-то не в этом. Какой документ ни возьми, при поиске по его номеру его (номер) всегда набирают с самой первой цифры, никто не вырывает пару из середины. Поэтому непонятно почему у него лайк с двумя процентами. PS: Единственная не слишком безумная причина для такого - нарушение первой НФ, в поле записаны несколько номеров через запятую. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 15:01 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov при поиске по его номеру его (номер) всегда набирают с самой первой цифры, никто не вырывает пару из середины. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 15:03 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
"Паспорт РФ 1234 567890 выдан...." возможно ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 15:57 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
123ййвозможно В этом случае топикстартер врёт и для нормализации ещё поле непаханное. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 16:15 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov Вопрос-то не в этом. Какой документ ни возьми, при поиске по его номеру его (номер) всегда набирают с самой первой цифры, никто не вырывает пару из середины. Не забываем про силовые органы: Свидетель запомнил несколько цифр из середины номера машины :). SY. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 17:03 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov Вопрос-то не в этом. Какой документ ни возьми, при поиске по его номеру его (номер) всегда набирают с самой первой цифры, никто не вырывает пару из середины. Поэтому непонятно почему у него лайк с двумя процентами. PS: Единственная не слишком безумная причина для такого - нарушение первой НФ, в поле записаны несколько номеров через запятую. Да, вы правы, нарушение первой НФ действительно есть. Но тому есть веские причины - данные приходят из разных источников, в каждом источнике много разных форматов данных, в том числе и не известных заказчику. Форматы могут обновляться, а также добавляться новые (без предупреждения), а также, нередко, человеческий фактор оказывает воздействие. Заказчик может слабо влиять на форматы предоставляемых ему данных. Поэтому и выбран такой способ хранения данных. Особо это нигде не аукается, а также у такого способа есть свои плюсы. Я сам перфекционист по натуре и стараюсь все делать оптимально, но, есть теория, а есть жизнь, в которой не всегда возможно сделать все идеально. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 18:02 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Андрей_7777Но тому есть веские причины - данные приходят из разных источников, в каждом источнике много разных форматов данных, в том числе и не известных заказчику. Форматы могут обновляться, а также добавляться новые (без предупреждения), а также, нередко, человеческий фактор оказывает воздействие. Весь список состоит из одного "лень". Проблема в том, что при таких условиях и ваш поиск с фиксированным форматом не будет работать. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 18:10 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov Андрей_7777Но тому есть веские причины - данные приходят из разных источников, в каждом источнике много разных форматов данных, в том числе и не известных заказчику. Форматы могут обновляться, а также добавляться новые (без предупреждения), а также, нередко, человеческий фактор оказывает воздействие. Весь список состоит из одного "лень". Проблема в том, что при таких условиях и ваш поиск с фиксированным форматом не будет работать. Весь список состоит из одного "лень". Это не лень, просто заказчика устраивает текущее положение дел и он не хочет заниматься согласовыванием многочисленных форматов. Проблема в том, что при таких условиях и ваш поиск с фиксированным форматом не будет работать. Не совсем понял вас. Мне нужно всего лишь найти строки с данной подстрокой. Текстовый индекс для этого отлично подходит. Проблема только в том, что пробелы разделяют токены, а мне надо, чтобы они считались частью слов, но на сколько я понял из чтения документации это невозможно. Поэтому я хочу создать вспомогательные столбцы, в которых будут храниться значения без пробелов, и навесить на них текстовые индексы. По таким индексам будут находиться нужные мне значения (искать надо будет тоже без пробелов). Единственное, мне не нравится, то что надо создавать дополнительные столбцы, в идеале хотелось бы обойтись без них, но не знаю как это сделать, текстовый индекс по функции, например, replace(name, ' ') создать нельзя. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 18:30 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Андрей_7777 , текстовый индекс по функции, например, replace(name, ' ') создать нельзя. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 18:42 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
А мне вообще смысл "обмануть" не понятен. Ну обманит его топик стартер, получит просто замену обычному индексу. IMHO ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 18:43 |
|
Текстовые индексы. Быстрый поиск вида like '%&%'
|
|||
---|---|---|---|
#18+
Алгоритмически, я-бы свёл задачу к поиску документов с 3 токенами. Тоесть вот такое Код: plsql 1. 2. 3. 4. 5.
Заменить на Код: plsql 1. 2. 3.
А уже из оставшейся выборки добить обычным фильтром композицию этих токенов в правильном порядке. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2021, 18:52 |
|
|
start [/forum/topic.php?fid=52&fpage=25&tid=1880412]: |
0ms |
get settings: |
9ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
29ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
70ms |
get tp. blocked users: |
1ms |
others: | 312ms |
total: | 456ms |
0 / 0 |