Правильное и оптимальное построение базы данных / Проектирование БД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Правильное и оптимальное построение базы данных

12 сообщений из 12, страница 1 из 1

Правильное и оптимальное построение базы данных

#33694272

Iura

Гость

Привет всем!

Я решаю одну задачку и столкнулся с проблемой роста объема базы данных.
Хотел бы услышать мнения и пожелания участников - как правильно и красиво решить проблему на SQL 2005.

Задача
Есть множество текстовых файлов. Каждый файл хранится в таблице documents
Documents
Document_id Bigtnt,
Document ntext(max)

Для каждого документа я создаю дополнительную таблицу sentence, которая хранит информации о начале и конце каждого предложения каждого документа
Sentence
Document_id
Sentence_id - bigint
Sentence nvarchar(max)
Sentence_start bigint
Sentence_end bigint

Для каждого предложения из каждого документа мне нужно составить индекс слов, а также указать позицю слова в предложении.
Таблица Word
word_id bigint
Document_id bigint
Sentense_id bigint
word nvarchar(256)
word_start smalint
word_end smallint

Вопрос
Как можно оптимизировать структуру таблиц, чтобы удалить избыточную информацию в них?
Например - я не хочу для каждого слова хранить информацию к какому документу оно принадлежит и какому придложению. Идеальный вариант в аналогии с файловой системой - это создать папку с номером документа, в каждой папке создать множество папок с номера строк и их описанием, и в каждой папке строк создать файлы, которые будут хранить информацию о словах для каждого предложения. Но как такую же структуру можно создать в SQL 2005 ?

Если я не ошибаюсь, то ORACLE позволят в качестве типа поля указывать таблицу. Я полагаю, что такая возможность позволяет значительно уменьшить базу данных. Но есть ли такая возможность на SQL 2005 ?

С уважением,
Юрий

...

Рейтинг:

0 / 0

27.04.2006, 13:24

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33694320

softwarer

Участник

Откуда: 127.0.0.1

Сообщения: 51 965

Рейтинг: 0 / 0

IuraНапример - я не хочу для каждого слова хранить информацию к какому документу оно принадлежит и какому придложению.
А зря. Вообще, тогда сразу возникает вопрос, что Вы собираетесь делать с этой информацией.

Ну а возможный ответ - используйте BLOB и собственную процедуру, которая будет расшифровывать его в датасет удобного Вам вида.

IuraЕсли я не ошибаюсь, то ORACLE позволят в качестве типа поля указывать таблицу. Я полагаю, что такая возможность позволяет значительно уменьшить базу данных.
Ничуть. Это замаскированное создание дочерней таблицы с тем же самым внешним ключом на основную. Что само по себе весьма разумно. Но если честно, я так и не смог придумать, зачем использовать в таблицах поля типа nested table. Их иногда удобно использовать в запросах, чтобы одним движением вернуть и мастера и детали по каждой записи, но не более - и эта задачка тоже.. весьма специфична.

...

Рейтинг:

0 / 0

27.04.2006, 13:34

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33694370

Iura

Гость

softwarer[quot Iura]Например - я не хочу для каждого слова хранить информацию к какому документу оно принадлежит и какому придложению.
А зря. Вообще, тогда сразу возникает вопрос, что Вы собираетесь делать с этой информацией.

Ну а возможный ответ - используйте BLOB и собственную процедуру, которая будет расшифровывать его в датасет удобного Вам вида.

Мне нужно для каждого слова хранить дополнительную информацию. Допускается что в каждом документе или предложении одно и тоже слово будет иметь отличную характеристику (терминалогию, язык, орфографию и так далее). То есть за каждым словом в каждом предложении каждого текста может стоять цела структура, которая описывает его уникальность вкаждом конкретном случае.

Разбивая предложения на слова - можно быстро находить нужные словосочетания, а потом смотреть в каком случае они использовались и каковы были их характеристики.

...

Рейтинг:

0 / 0

27.04.2006, 13:44

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33704864

Estets

Участник

Откуда: Химки

Сообщения: 605

Рейтинг: 0 / 0

Уж не систему ли для перевода текстов вы задумали?

...

Рейтинг:

0 / 0

03.05.2006, 17:27

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33705060

proposed amendment

Участник

Сообщения: 9 144

Рейтинг: 0 / 0

EstetsУж не систему ли для перевода текстов вы задумали?

ИМХО все те-же шаблоны договоров и писем, может быть на английском или двуязычные

банально

...

Рейтинг:

0 / 0

03.05.2006, 18:36

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33705176

!!!

Участник

Откуда: Да все оттуда

Сообщения: 151

Рейтинг: 0 / 0

EstetsУж не систему ли для перевода текстов вы задумали?
Наверняка

...

Рейтинг:

0 / 0

03.05.2006, 19:21

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33705580

Iura

Гость

Да

Translation Memory планирую реализовать, но на своем движке.

...

Рейтинг:

0 / 0

04.05.2006, 07:51

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33706149

Estets

Участник

Откуда: Химки

Сообщения: 605

Рейтинг: 0 / 0

Музыкальные идеи витают в ввоздухе (с) Джон Леннон, в ответ на вопрос почему мелодия новой песни очень похожа на мелодию Клифа Ричарда

Тут у меня возникла подобная идея, что имея пять томов "Гарри Поттера" на русском и английском, и учитывая 90-процентную схожесть контекста и речевых оборотов одного автора, можно статистическими методами перевести 6-ой том на русский язык ;)))

И увидев структуру примерно совпадающую с той что я представлял себе для ДатаМайнинга я подумал что и задачи примерно одинаковые.

...

Рейтинг:

0 / 0

04.05.2006, 11:13

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33706855

Iura

Гость

EstetsМузыкальные идеи витают в ввоздухе (с) Джон Леннон, в ответ на вопрос почему мелодия новой песни очень похожа на мелодию Клифа Ричарда

Тут у меня возникла подобная идея, что имея пять томов "Гарри Поттера" на русском и английском, и учитывая 90-процентную схожесть контекста и речевых оборотов одного автора, можно статистическими методами перевести 6-ой том на русский язык ;)))

И увидев структуру примерно совпадающую с той что я представлял себе для ДатаМайнинга я подумал что и задачи примерно одинаковые.

С определеным уровенм качества - да :)
Во всяком случае можно значительно облегчить жизнь переводчика ;)

...

Рейтинг:

0 / 0

04.05.2006, 13:43

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33708024

proposed amendment

Участник

Сообщения: 9 144

Рейтинг: 0 / 0

Estets
Тут у меня возникла подобная идея.

очень хорошая и интересная идея...

в ее развите предложил бы еще и написать 7-й том...
используя все те же технологии статанализа и дэйтамайнинга

это было-б рили кул, сётанли...

поминтся в "терминал"е житель бедной Какракозии (Форест Гамп?) изучал английский язык по двуязычному, карокозийско-английскому рекламному буклету...

...

Рейтинг:

0 / 0

04.05.2006, 18:17

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33708394

Estets

Участник

Откуда: Химки

Сообщения: 605

Рейтинг: 0 / 0

proposed amendmentв ее развите предложил бы еще и написать 7-й том...
используя все те же технологии статанализа и дэйтамайнинга

Была у меня книга с названием примерно "Теория русских сказок" ну или что-то подобное, там были общие алгоритмы построения практически всех сказок, и описаны 7 (если не ошибаюсь) сюжетных линий, на которые ложатся все сказки, только подставляй нужного героя и события.

Так что подключив к статанализу и дэйтамайнингу "сказочные" алгоритмы, книгу не книгу а сказку о "Гарри потере и золотом яблочке" написать можно.

...

Рейтинг:

0 / 0

04.05.2006, 21:00

| Ответить | Цитировать | Написать

Правильное и оптимальное построение базы данных

#33708445

Iura

Гость

www.trados.com

Я не изобретаю велосипед!

Существует множество алоритмов для игры в шахматы, но только несколько из них заслуживают внимание и уважение.

...

Рейтинг:

0 / 0

04.05.2006, 21:33

| Ответить | Цитировать | Написать

12 сообщений из 12, страница 1 из 1

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=32&msg=33705580&tid=1545278]:	0ms
get settings:	8ms
get forum list:	15ms
check forum access:	4ms
check topic access:	4ms
track hit:	157ms
get topic data:	10ms
get forum data:	2ms
get page messages:	63ms
get tp. blocked users:	1ms
others:	229ms

total:	493ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы