Поиск в абзаце / Проектирование БД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Поиск в абзаце

25 сообщений из 27, страница 1 из 2

все

Поиск в абзаце

#34903202

Kukolev_A_A

Гость

Здравствуйте уважаемые, помогите кто может!
Есть таблица данных в Access (не суть важно):

Структура:

ID - Счетчик
DocName - Текстовый
ItemNumber - Числовой
ItemWord - Текстовый

Описание задачи: В DocName пишется название документа, в ItemNumber - номер абзаца в документе
в ItemWord - слово из абзаца. Таким образом я сформировал Таблицу для индексации слов в документе с учетом номера абзаца. Проблема в том, что никак не могу составить корректный SQL запрос. Собственно задача состоит в том, что имея два или более слов необходимо составить запрос, который бы возвращал названия документов, в которых эти слова встречаются в одном абзаце.

Все перепробовал - знаний видимо не хватает. Подскажите, если у кого есть идеи по этому поводу. Заранее благодарен!

...

Рейтинг:

0 / 0

29.10.2007, 23:03

| Ответить | Цитировать | Написать

Поиск в абзаце

#34903251

egorych

Участник

Откуда: и зачем;

Сообщения: 4 817

Рейтинг: 0 / 0

Like?

...

Рейтинг:

0 / 0

29.10.2007, 23:55

| Ответить | Цитировать | Написать

Поиск в абзаце

#34903256

Kukolev_A_A

Гость

LIKE годится только если в ItemWord поместить весь абзац...

...

Рейтинг:

0 / 0

30.10.2007, 00:00

| Ответить | Цитировать | Написать

Поиск в абзаце

#34903267

Baykin Ilya

Участник

Откуда: Moscow

Сообщения: 177

Рейтинг: 0 / 0

Насколько я понял вам совершенно правильно подсказали.
.....LIKE('%MY_WORD%')..... где символы '%' обозначают, что перед и после ключевого слова может находится любое количество любых символов.
Естественно, надо как-то смотреть каким символом разделяется абзац и там уже считать сколько таких символов мы прошли-грубо говоря это и будет номер абзаца.
Или мы не так вас поняли?

А можно, ради интереса, попросить вас описать вашу задачу более подробно? Для чего это будет использоваться? Достаточно необычная задача, на мой взгляд...

...

Рейтинг:

0 / 0

30.10.2007, 00:16

| Ответить | Цитировать | Написать

Поиск в абзаце

#34903282

Kukolev_A_A

Гость

Посняю: Задача - поиск документа по следующему критерию: нахождение двух или более слов внутри одного и того же абзаца. Таким образом возникает вопрос как представлять сам документ... Первым вариантом было как раз следующее представление - в DocName записать название док-та, затем в ItemNumber номер абзаца, и далее в ItemWord - сам текст абзаца. Пример

Документ:

ВОДНЫЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ

Принят
Государственной Думой
12 апреля 2006 года

............................................................................ и т.д. ........................................

Таблица:

DocName ItemNumber ItemWord
11111.rtf 1 ВОДНЫЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ
11111.rtf 3 Принят
11111.rtf 4 Государственной Думой
11111.rtf 5 12 апреля 2006 года

И все было неплохо, пока не оказалось, что документов порядка 10000, абзацев соответственно ~10^7 и LIKE тут работал очень медленно. Далее я пытался записывать в ItemWord уже не абзацы, а отдельные слова! Да, записей получилось больше, но благодаря индексации запросы типа ItemWord = "Слово" выполнялись быстрей чем ItemWord LIKE "%Слово%"... Вот собственно и задача нарисовалась - как объединить запросы для разных значений ItemWord - то есть искать документы, в которых искомые слова встречаются в одном абзаце!

...

Рейтинг:

0 / 0

30.10.2007, 00:34

| Ответить | Цитировать | Написать

Поиск в абзаце

#34903354

Tosh

Участник

Откуда: Vladivostok

Сообщения: 2 870

Рейтинг: 0 / 0

не знаю поможет или нет, но, в свое вермя, мне очень сильно помогла эта ссылка

...

Рейтинг:

0 / 0

30.10.2007, 02:57

| Ответить | Цитировать | Написать

Поиск в абзаце

#34903679

belugin

Участник

Откуда: Москва

Сообщения: 857

Рейтинг: 0 / 0

Да, записей получилось больше, но благодаря индексации запросы типа ItemWord = "Слово" выполнялись быстрей чем ItemWord LIKE "%Слово%"... Вот собственно и задача нарисовалась - как объединить запросы для разных значений ItemWord - то есть искать документы, в которых искомые слова встречаются в одном абзаце!

Как-то так:

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

select НомерДокумента from СловоВДокументе 
where СловоВДокументе.Слово='первоеСлово'
         and
         exists (select * from СловоВДокументе ВтороеСлово
               where ВтороеСлово.Слово =  'второе Слово'
                        and
                        ВтороеСлово.НомерДокумента = СловоВДокументе.НомерДокумента
                        and
                        ВтороеСлово.НомерАбзаца = СловоВДокументе.НомерАбзаца
         )
               group by НомерДокумента

...

Рейтинг:

0 / 0

30.10.2007, 10:11

| Ответить | Цитировать | Написать

Поиск в абзаце

#34904732

ModelR

Участник

Откуда: Нижний Новгород

Сообщения: 1 802

Рейтинг: 0 / 0

типа

Код: plaintext

1.
2.
3.
4.
5.

select distinct docname from
(select count(*) ,DocName, ItemNumber 
 from concordance
 where ItemWord in (<искомый список слов>)
 having count(*)  = <длина искомого списка слов>
)

...

Рейтинг:

0 / 0

30.10.2007, 14:17

| Ответить | Цитировать | Написать

Поиск в абзаце

#34905065

krvsa

Участник

Откуда: г Волжский

Сообщения: 13 823

Рейтинг: 1 / 0

ModelR , слова автору нужны все сразу и в одном документе+абзаце. А не "некоторые из" списка...
----------
Cache for Windows NT (Intel) 5.0.20 (Build 6305) Fri Sep 16 2005 11:54:10 EDT

...

Рейтинг:

0 / 0

30.10.2007, 15:53

| Ответить | Цитировать | Написать

Поиск в абзаце

#34905108

krvsa

Участник

Откуда: г Волжский

Сообщения: 13 823

Рейтинг: 1 / 0

Мне понравилась идея с количеством слов. Как вам такой вариант?

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.

Select distinct 
   DocName 
From
   table as a
Where
   (Select
       count(*)
    From
       table as b
    Where
       b.DocName=a.DocName 
       and
          bItemNumber=a.ItemNumber 
          and
             b.ItemWord in (<искомый список слов>)  
   )=<количество слов>

----------
Cache for Windows NT (Intel) 5.0.20 (Build 6305) Fri Sep 16 2005 11:54:10 EDT

...

Рейтинг:

0 / 0

30.10.2007, 16:04

| Ответить | Цитировать | Написать

Поиск в абзаце

#34905140

krvsa

Участник

Откуда: г Волжский

Сообщения: 13 823

Рейтинг: 1 / 0

ModelR , извиняй. А ты просто пропустил

Код: plaintext

Group by DocName, ItemNumber

Или как?

Интересно чей запрос отстреляется быстрее?...
----------
Cache for Windows NT (Intel) 5.0.20 (Build 6305) Fri Sep 16 2005 11:54:10 EDT

...

Рейтинг:

0 / 0

30.10.2007, 16:11

| Ответить | Цитировать | Написать

Поиск в абзаце

#34905261

Кот Матроскин

Участник

Откуда: Москва

Сообщения: 2 329

Рейтинг: 0 / 0

Автору я бы посоветовал еще добавить поле CountWords - сколько раз данное слово встречается в данном абзаце.

...

Рейтинг:

0 / 0

30.10.2007, 16:41

| Ответить | Цитировать | Написать

Поиск в абзаце

#34905471

ModelR

Участник

Откуда: Нижний Новгород

Сообщения: 1 802

Рейтинг: 0 / 0

[quot krvsa] ModelR , извиняй. А ты просто пропустил

Код: plaintext

Group by DocName, ItemNumber

Или как?
Факт:(

...

Рейтинг:

0 / 0

30.10.2007, 17:31

| Ответить | Цитировать | Написать

Поиск в абзаце

#34905945

Kukolev_A_A

Гость

Спасибо всем, обязательно потестирую все запросы. Но пока могу сказать одно - запрос belugin'a выполнялся ну уж очень долго - виной тому огромное количество слов в моей базе...

...

Рейтинг:

0 / 0

30.10.2007, 21:47

| Ответить | Цитировать | Написать

Поиск в абзаце

#34906020

belugin

Участник

Откуда: Москва

Сообщения: 857

Рейтинг: 0 / 0

Kukolev_A_AСпасибо всем, обязательно потестирую все запросы. Но пока могу сказать одно - запрос belugin'a выполнялся ну уж очень долго - виной тому огромное количество слов в моей базе...

Индекс {слово, документ, абзац} имеется?

...

Рейтинг:

0 / 0

30.10.2007, 22:55

| Ответить | Цитировать | Написать

Поиск в абзаце

#34906025

belugin

Участник

Откуда: Москва

Сообщения: 857

Рейтинг: 0 / 0

еще надо первое слово, наверное, самое селективное сделать...

...

Рейтинг:

0 / 0

30.10.2007, 23:00

| Ответить | Цитировать | Написать

Поиск в абзаце

#34906439

krvsa

Участник

Откуда: г Волжский

Сообщения: 13 823

Рейтинг: 1 / 0

Kukolev_A_Aзапрос belugin'a выполнялся ну уж очень долго
Это решение т.с. "в лоб", переборов много...

...

Рейтинг:

0 / 0

31.10.2007, 09:53

| Ответить | Цитировать | Написать

Поиск в абзаце

#34926257

Николай1

Участник

Откуда: Москва

Сообщения: 345

Рейтинг: 0 / 0

Гм. Вообще-то стандартный однопроходный алгоритм с группировкой по абзацам.
Пересматриваются все записи, содержащие нужные слова.
То есть, затараты = сумма(количество записей с каждым словом, по каждому слову). Быстрее не получится.
Потом еще придется просмотреть отобранный список документов.

...

Рейтинг:

0 / 0

08.11.2007, 18:54

| Ответить | Цитировать | Написать

Поиск в абзаце

#34926757

drev

Участник

Откуда: Одесса - Берег Красного Дерева - Красный мир

Сообщения: 302

Рейтинг: 0 / 0

ИМХО, все приведенные запросы не учитывают возможность повторения слов

На мой взгляд:

Структура:

Код: plaintext

1.
2.
3.
4.
5.
6.
7.

create table docs
(
    ID int identity,
DocName varchar( 500 ),
ItemNumber int,
ItemWord varchar( 500 )

)

Тестовые данные:

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.

 1 	doc1	 1 	w1
 2 	doc1	 1 	w2
 3 	doc1	 2 	w1
 4 	doc1	 2 	w3
 5 	doc2	 1 	w1
 6 	doc2	 1 	w4
 7 	doc2	 2 	w2
 8 	doc3	 1 	w1
 9 	doc3	 1 	w2
 10 	doc3	 1 	w1
 11 	doc4	 1 	w1
 12 	doc4	 1 	w4
 13 	doc4	 1 	w1
 14 	doc3	 3 	w1
 15 	doc3	 3 	w2

Запрос:

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.

begin

declare @words table (word varchar( 500 ) )

insert @words values ('w1')
insert @words values ('w2')

declare @count int

set @count =  2 

	select distinct DocName
	from 
		(		
			select distinct DocName, ItemNumber, ItemWord
				From
					docs inner join @words on ItemWord = word
		) first 
	group by DocName, ItemNumber
	having count(*) =  @count


end

Результат

Код: plaintext

doc1
doc3

...

Рейтинг:

0 / 0

09.11.2007, 06:13

| Ответить | Цитировать | Написать

Поиск в абзаце

#34926835

krvsa

Участник

Откуда: г Волжский

Сообщения: 13 823

Рейтинг: 1 / 0

drevИМХО, все приведенные запросы не учитывают возможность повторения слов
У автора такая структура данных что у него не будет записей с одним словом в одном абзаце и документе...

...

Рейтинг:

0 / 0

09.11.2007, 08:30

| Ответить | Цитировать | Написать

Поиск в абзаце

#34927083

drev

Участник

Откуда: Одесса - Берег Красного Дерева - Красный мир

Сообщения: 302

Рейтинг: 0 / 0

krvsa drevИМХО, все приведенные запросы не учитывают возможность повторения слов
У автора такая структура данных что у него не будет записей с одним словом в одном абзаце и документе...

Really?:)

14) использование водных объектов (водопользование) - использование различными способами водных объектов для удовлетворения потребностей Российской Федерации, субъектов Российской Федерации, муниципальных образований, физических лиц, юридических лиц;

...

Рейтинг:

0 / 0

09.11.2007, 10:12

| Ответить | Цитировать | Написать

Поиск в абзаце

#34927251

ModelR

Участник

Откуда: Нижний Новгород

Сообщения: 1 802

Рейтинг: 0 / 0

Точнее, у автора не предусмотрен ни счетчик одинаковых слов в абзаце, ни позиция слова внутри абзаца. Так что одно или несколько одинаковых слов в абзаце равно породят единственную запись в конкордансе.

...

Рейтинг:

0 / 0

09.11.2007, 10:52

| Ответить | Цитировать | Написать

Поиск в абзаце

#34927401

drev

Участник

Откуда: Одесса - Берег Красного Дерева - Красный мир

Сообщения: 302

Рейтинг: 0 / 0

ModelRТочнее, у автора не предусмотрен ни счетчик одинаковых слов в абзаце, ни позиция слова внутри абзаца. Так что одно или несколько одинаковых слов в абзаце равно породят единственную запись в конкордансе.

Смотрите, проблема в другом. Если мы ищем слова w1, w2 и в абзаце w1 встретилось два раза - то по логике Вашего запроса мы выберем этот документ, а если w1 встретилось два раза и w2 - один раз - не выберем.

Понятно?

...

Рейтинг:

0 / 0

09.11.2007, 11:21

| Ответить | Цитировать | Написать

Поиск в абзаце

#34927523

krvsa

Участник

Откуда: г Волжский

Сообщения: 13 823

Рейтинг: 1 / 0

Насколько я понял, у автора, для слова/абзаца/документа появляется единственная запись если это слово хотябы раз встретилось в этом абзаце, этого документа.
----------
Cache for Windows NT (Intel) 5.0.20 (Build 6305) Fri Sep 16 2005 11:54:10 EDT

...

Рейтинг:

0 / 0

09.11.2007, 11:42

| Ответить | Цитировать | Написать

Поиск в абзаце

#34927552

drev

Участник

Откуда: Одесса - Берег Красного Дерева - Красный мир

Сообщения: 302

Рейтинг: 0 / 0

krvsaНасколько я понял, у автора, для слова/абзаца/документа появляется единственная запись если это слово хотябы раз встретилось в этом абзаце, этого документа.
----------
Cache for Windows NT (Intel) 5.0.20 (Build 6305) Fri Sep 16 2005 11:54:10 EDT

Странно. Не заметил, где это сказано :(

...

Рейтинг:

0 / 0

09.11.2007, 11:49

| Ответить | Цитировать | Написать

25 сообщений из 27, страница 1 из 2

все

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Поиск в абзаце

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=32&fpage=112&tid=1544206]:	0ms
get settings:	7ms
get forum list:	8ms
check forum access:	2ms
check topic access:	2ms
track hit:	43ms
get topic data:	7ms
get forum data:	2ms
get page messages:	36ms
get tp. blocked users:	1ms
others:	224ms

total:	332ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы