Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Правильное и оптимальное построение базы данных / 12 сообщений из 12, страница 1 из 1
27.04.2006, 13:24
    #33694272
Iura
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
Привет всем!

Я решаю одну задачку и столкнулся с проблемой роста объема базы данных.
Хотел бы услышать мнения и пожелания участников - как правильно и красиво решить проблему на SQL 2005.

Задача
Есть множество текстовых файлов. Каждый файл хранится в таблице documents
Documents
Document_id Bigtnt,
Document ntext(max)

Для каждого документа я создаю дополнительную таблицу sentence, которая хранит информации о начале и конце каждого предложения каждого документа
Sentence
Document_id
Sentence_id - bigint
Sentence nvarchar(max)
Sentence_start bigint
Sentence_end bigint

Для каждого предложения из каждого документа мне нужно составить индекс слов, а также указать позицю слова в предложении.
Таблица Word
word_id bigint
Document_id bigint
Sentense_id bigint
word nvarchar(256)
word_start smalint
word_end smallint

Вопрос
Как можно оптимизировать структуру таблиц, чтобы удалить избыточную информацию в них?
Например - я не хочу для каждого слова хранить информацию к какому документу оно принадлежит и какому придложению. Идеальный вариант в аналогии с файловой системой - это создать папку с номером документа, в каждой папке создать множество папок с номера строк и их описанием, и в каждой папке строк создать файлы, которые будут хранить информацию о словах для каждого предложения. Но как такую же структуру можно создать в SQL 2005 ?

Если я не ошибаюсь, то ORACLE позволят в качестве типа поля указывать таблицу. Я полагаю, что такая возможность позволяет значительно уменьшить базу данных. Но есть ли такая возможность на SQL 2005 ?

С уважением,
Юрий
...
Рейтинг: 0 / 0
27.04.2006, 13:34
    #33694320
softwarer
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
IuraНапример - я не хочу для каждого слова хранить информацию к какому документу оно принадлежит и какому придложению.
А зря. Вообще, тогда сразу возникает вопрос, что Вы собираетесь делать с этой информацией.

Ну а возможный ответ - используйте BLOB и собственную процедуру, которая будет расшифровывать его в датасет удобного Вам вида.

IuraЕсли я не ошибаюсь, то ORACLE позволят в качестве типа поля указывать таблицу. Я полагаю, что такая возможность позволяет значительно уменьшить базу данных.
Ничуть. Это замаскированное создание дочерней таблицы с тем же самым внешним ключом на основную. Что само по себе весьма разумно. Но если честно, я так и не смог придумать, зачем использовать в таблицах поля типа nested table. Их иногда удобно использовать в запросах, чтобы одним движением вернуть и мастера и детали по каждой записи, но не более - и эта задачка тоже.. весьма специфична.
...
Рейтинг: 0 / 0
27.04.2006, 13:44
    #33694370
Iura
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
softwarer[quot Iura]Например - я не хочу для каждого слова хранить информацию к какому документу оно принадлежит и какому придложению.
А зря. Вообще, тогда сразу возникает вопрос, что Вы собираетесь делать с этой информацией.

Ну а возможный ответ - используйте BLOB и собственную процедуру, которая будет расшифровывать его в датасет удобного Вам вида.

Мне нужно для каждого слова хранить дополнительную информацию. Допускается что в каждом документе или предложении одно и тоже слово будет иметь отличную характеристику (терминалогию, язык, орфографию и так далее). То есть за каждым словом в каждом предложении каждого текста может стоять цела структура, которая описывает его уникальность вкаждом конкретном случае.

Разбивая предложения на слова - можно быстро находить нужные словосочетания, а потом смотреть в каком случае они использовались и каковы были их характеристики.
...
Рейтинг: 0 / 0
03.05.2006, 17:27
    #33704864
Estets
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
Уж не систему ли для перевода текстов вы задумали?
...
Рейтинг: 0 / 0
03.05.2006, 18:36
    #33705060
proposed amendment
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
EstetsУж не систему ли для перевода текстов вы задумали?

ИМХО все те-же шаблоны договоров и писем, может быть на английском или двуязычные

банально
...
Рейтинг: 0 / 0
03.05.2006, 19:21
    #33705176
!!!
!!!
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
EstetsУж не систему ли для перевода текстов вы задумали?
Наверняка
...
Рейтинг: 0 / 0
04.05.2006, 07:51
    #33705580
Iura
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
Да

Translation Memory планирую реализовать, но на своем движке.
...
Рейтинг: 0 / 0
04.05.2006, 11:13
    #33706149
Estets
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
Музыкальные идеи витают в ввоздухе (с) Джон Леннон, в ответ на вопрос почему мелодия новой песни очень похожа на мелодию Клифа Ричарда

Тут у меня возникла подобная идея, что имея пять томов "Гарри Поттера" на русском и английском, и учитывая 90-процентную схожесть контекста и речевых оборотов одного автора, можно статистическими методами перевести 6-ой том на русский язык ;)))

И увидев структуру примерно совпадающую с той что я представлял себе для ДатаМайнинга я подумал что и задачи примерно одинаковые.
...
Рейтинг: 0 / 0
04.05.2006, 13:43
    #33706855
Iura
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
EstetsМузыкальные идеи витают в ввоздухе (с) Джон Леннон, в ответ на вопрос почему мелодия новой песни очень похожа на мелодию Клифа Ричарда

Тут у меня возникла подобная идея, что имея пять томов "Гарри Поттера" на русском и английском, и учитывая 90-процентную схожесть контекста и речевых оборотов одного автора, можно статистическими методами перевести 6-ой том на русский язык ;)))

И увидев структуру примерно совпадающую с той что я представлял себе для ДатаМайнинга я подумал что и задачи примерно одинаковые.

С определеным уровенм качества - да :)
Во всяком случае можно значительно облегчить жизнь переводчика ;)
...
Рейтинг: 0 / 0
04.05.2006, 18:17
    #33708024
proposed amendment
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
Estets
Тут у меня возникла подобная идея.

очень хорошая и интересная идея...

в ее развите предложил бы еще и написать 7-й том...
используя все те же технологии статанализа и дэйтамайнинга

это было-б рили кул, сётанли...

поминтся в "терминал"е житель бедной Какракозии (Форест Гамп?) изучал английский язык по двуязычному, карокозийско-английскому рекламному буклету...
...
Рейтинг: 0 / 0
04.05.2006, 21:00
    #33708394
Estets
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
proposed amendmentв ее развите предложил бы еще и написать 7-й том...
используя все те же технологии статанализа и дэйтамайнинга

Была у меня книга с названием примерно "Теория русских сказок" ну или что-то подобное, там были общие алгоритмы построения практически всех сказок, и описаны 7 (если не ошибаюсь) сюжетных линий, на которые ложатся все сказки, только подставляй нужного героя и события.

Так что подключив к статанализу и дэйтамайнингу "сказочные" алгоритмы, книгу не книгу а сказку о "Гарри потере и золотом яблочке" написать можно.
...
Рейтинг: 0 / 0
04.05.2006, 21:33
    #33708445
Iura
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Правильное и оптимальное построение базы данных
www.trados.com

Я не изобретаю велосипед!

Существует множество алоритмов для игры в шахматы, но только несколько из них заслуживают внимание и уважение.
...
Рейтинг: 0 / 0
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Правильное и оптимальное построение базы данных / 12 сообщений из 12, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]