|
|
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
Привет всем! Я решаю одну задачку и столкнулся с проблемой роста объема базы данных. Хотел бы услышать мнения и пожелания участников - как правильно и красиво решить проблему на SQL 2005. Задача Есть множество текстовых файлов. Каждый файл хранится в таблице documents Documents Document_id Bigtnt, Document ntext(max) Для каждого документа я создаю дополнительную таблицу sentence, которая хранит информации о начале и конце каждого предложения каждого документа Sentence Document_id Sentence_id - bigint Sentence nvarchar(max) Sentence_start bigint Sentence_end bigint Для каждого предложения из каждого документа мне нужно составить индекс слов, а также указать позицю слова в предложении. Таблица Word word_id bigint Document_id bigint Sentense_id bigint word nvarchar(256) word_start smalint word_end smallint Вопрос Как можно оптимизировать структуру таблиц, чтобы удалить избыточную информацию в них? Например - я не хочу для каждого слова хранить информацию к какому документу оно принадлежит и какому придложению. Идеальный вариант в аналогии с файловой системой - это создать папку с номером документа, в каждой папке создать множество папок с номера строк и их описанием, и в каждой папке строк создать файлы, которые будут хранить информацию о словах для каждого предложения. Но как такую же структуру можно создать в SQL 2005 ? Если я не ошибаюсь, то ORACLE позволят в качестве типа поля указывать таблицу. Я полагаю, что такая возможность позволяет значительно уменьшить базу данных. Но есть ли такая возможность на SQL 2005 ? С уважением, Юрий ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.04.2006, 13:24 |
|
||
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
IuraНапример - я не хочу для каждого слова хранить информацию к какому документу оно принадлежит и какому придложению. А зря. Вообще, тогда сразу возникает вопрос, что Вы собираетесь делать с этой информацией. Ну а возможный ответ - используйте BLOB и собственную процедуру, которая будет расшифровывать его в датасет удобного Вам вида. IuraЕсли я не ошибаюсь, то ORACLE позволят в качестве типа поля указывать таблицу. Я полагаю, что такая возможность позволяет значительно уменьшить базу данных. Ничуть. Это замаскированное создание дочерней таблицы с тем же самым внешним ключом на основную. Что само по себе весьма разумно. Но если честно, я так и не смог придумать, зачем использовать в таблицах поля типа nested table. Их иногда удобно использовать в запросах, чтобы одним движением вернуть и мастера и детали по каждой записи, но не более - и эта задачка тоже.. весьма специфична. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.04.2006, 13:34 |
|
||
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
softwarer[quot Iura]Например - я не хочу для каждого слова хранить информацию к какому документу оно принадлежит и какому придложению. А зря. Вообще, тогда сразу возникает вопрос, что Вы собираетесь делать с этой информацией. Ну а возможный ответ - используйте BLOB и собственную процедуру, которая будет расшифровывать его в датасет удобного Вам вида. Мне нужно для каждого слова хранить дополнительную информацию. Допускается что в каждом документе или предложении одно и тоже слово будет иметь отличную характеристику (терминалогию, язык, орфографию и так далее). То есть за каждым словом в каждом предложении каждого текста может стоять цела структура, которая описывает его уникальность вкаждом конкретном случае. Разбивая предложения на слова - можно быстро находить нужные словосочетания, а потом смотреть в каком случае они использовались и каковы были их характеристики. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.04.2006, 13:44 |
|
||
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
Уж не систему ли для перевода текстов вы задумали? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.05.2006, 17:27 |
|
||
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
EstetsУж не систему ли для перевода текстов вы задумали? ИМХО все те-же шаблоны договоров и писем, может быть на английском или двуязычные банально ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.05.2006, 18:36 |
|
||
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
EstetsУж не систему ли для перевода текстов вы задумали? Наверняка ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.05.2006, 19:21 |
|
||
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
Да Translation Memory планирую реализовать, но на своем движке. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.05.2006, 07:51 |
|
||
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
Музыкальные идеи витают в ввоздухе (с) Джон Леннон, в ответ на вопрос почему мелодия новой песни очень похожа на мелодию Клифа Ричарда Тут у меня возникла подобная идея, что имея пять томов "Гарри Поттера" на русском и английском, и учитывая 90-процентную схожесть контекста и речевых оборотов одного автора, можно статистическими методами перевести 6-ой том на русский язык ;))) И увидев структуру примерно совпадающую с той что я представлял себе для ДатаМайнинга я подумал что и задачи примерно одинаковые. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.05.2006, 11:13 |
|
||
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
EstetsМузыкальные идеи витают в ввоздухе (с) Джон Леннон, в ответ на вопрос почему мелодия новой песни очень похожа на мелодию Клифа Ричарда Тут у меня возникла подобная идея, что имея пять томов "Гарри Поттера" на русском и английском, и учитывая 90-процентную схожесть контекста и речевых оборотов одного автора, можно статистическими методами перевести 6-ой том на русский язык ;))) И увидев структуру примерно совпадающую с той что я представлял себе для ДатаМайнинга я подумал что и задачи примерно одинаковые. С определеным уровенм качества - да :) Во всяком случае можно значительно облегчить жизнь переводчика ;) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.05.2006, 13:43 |
|
||
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
Estets Тут у меня возникла подобная идея. очень хорошая и интересная идея... в ее развите предложил бы еще и написать 7-й том... используя все те же технологии статанализа и дэйтамайнинга это было-б рили кул, сётанли... поминтся в "терминал"е житель бедной Какракозии (Форест Гамп?) изучал английский язык по двуязычному, карокозийско-английскому рекламному буклету... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.05.2006, 18:17 |
|
||
|
Правильное и оптимальное построение базы данных
|
|||
|---|---|---|---|
|
#18+
proposed amendmentв ее развите предложил бы еще и написать 7-й том... используя все те же технологии статанализа и дэйтамайнинга Была у меня книга с названием примерно "Теория русских сказок" ну или что-то подобное, там были общие алгоритмы построения практически всех сказок, и описаны 7 (если не ошибаюсь) сюжетных линий, на которые ложатся все сказки, только подставляй нужного героя и события. Так что подключив к статанализу и дэйтамайнингу "сказочные" алгоритмы, книгу не книгу а сказку о "Гарри потере и золотом яблочке" написать можно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.05.2006, 21:00 |
|
||
|
|

start [/forum/topic.php?fid=32&msg=33705580&tid=1545278]: |
0ms |
get settings: |
8ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
157ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
63ms |
get tp. blocked users: |
1ms |
| others: | 229ms |
| total: | 493ms |

| 0 / 0 |
