СУБД в биоинформатике / Сравнение СУБД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД в биоинформатике

25 сообщений из 26, страница 1 из 2

все

СУБД в биоинформатике

#32819624

aou

Гость

Просто интересно. А какие СУБД используются в биоинформатике? Например - базы, используемые в алгоритме BLAST где и как хранятся?

Если в кратце - то типичная задача следующая:

Сама база данных - строки длинной от 100 до 30000 символов (белковые или ДНК последовательности). Объем - от 20Gb до 3-4Tb.

Задача - найти в базе все записи *похожие* на заданную. То есть не такуюже, не подстроку, а именно похожую запись. Ну например, отличающуюся на 5-10 случайных символов от заданной.

Подробности здесь: http://www.ncbi.nlm.nih.gov/BLAST/

...

Рейтинг:

0 / 0

08.12.2004, 20:46

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32819644

Lepsik

Участник

Откуда: glubinka

Сообщения: 4 167

Рейтинг: 0 / 0

MS sqL 2005 позволяет это делать. Только структуру придется разложить как XML документ и хранить в поле типа XML

...

Рейтинг:

0 / 0

08.12.2004, 21:24

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32819709

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

Не думаю, что MS SQL 2005 ИСПОЛЬЗУЕТСЯ вообще, тем более в биоинформатике. Потому что его ещё нет.
Также не очень понятно зачем раскладывать в XML, когда BLAST работает с текстовыми строками. Что-то здесь не так :)
Мне кажется, последовательность надо было бы хранить в CLOB и обрабатывать посредством UDF. Скорее всего, в MS SQL нет встроенной функции, реализующей BLAST.

3-4 ТБ также говорят о том, что задача не очень тривиальная. На мой взгляд, нужны достаточно хорошие вычислительные мощности. Желательно распараллеливание, поскольку объёмы достаточно большие.
Соответственно, нужно искать СУБД, способную эффективно параллельно обрабатывать достаточно большие объёмы данных с помощью UDF (не исключено, что реализация BLAST уже существует в виде UDF для какой-нибудь СУБД).
Не исключаю, что надо посмотреть в сторону специализированных СУБД. Может, есть такие?

Смотря на верхнюю границу объёма данных, предложил бы Терадату, если был бы уверен, что есть UDF для поддержки BLAST. Но не уверен.

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

09.12.2004, 00:15

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32819715

Lepsik

Участник

Откуда: glubinka

Сообщения: 4 167

Рейтинг: 0 / 0

[quot Константин Лисянский]Не думаю, что MS SQL 2005 ИСПОЛЬЗУЕТСЯ вообще, тем более в биоинформатике. Потому что его ещё нет.

Есть не в полной версии - без инструментов.

--Также не очень понятно зачем раскладывать в XML, когда BLAST работает с текстовыми строками. Что-то здесь не так :)

что и собственно и есть XML.

---обрабатывать посредством UDF. Скорее всего, в MS SQL нет встроенной функции, реализующей BLAST.

зато есть многое что позволяет это реализовать.

--3-4 ТБ также говорят о том, что задача не очень тривиальная. На мой взгляд, нужны достаточно хорошие вычислительные мощности.

скажем так я оперирую обьектами 20-70 мег. достаточно легко.
а Юкон делает это еще проще, посокльку не хранит в тупую XML обьект как набор бинарных данных а его структурирование представление с легким доступом к любой части.

...

Рейтинг:

0 / 0

09.12.2004, 00:33

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32819723

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

что и собственно и есть XML.

ОК. Бласт работает с плоскими текстовыми строками без какой-либо разметки тегами.
XML в этом случае просто будет лишним оверхедом. ИМХО.

а Юкон делает это еще проще, посокльку не хранит в тупую XML обьект как набор бинарных данных а его структурирование представление с легким доступом к любой части.

Если это структурированное представление похоже на DOM, то тормоза и жуткий расход памяти обеспечены.
Но, ояпять-таки, BLAST не об этом. На мой взгляд, XML тут, всё-таки, не при чём.

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

09.12.2004, 00:50

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32819724

Lepsik

Участник

Откуда: glubinka

Сообщения: 4 167

Рейтинг: 0 / 0

--XML в этом случае просто будет лишним оверхедом. ИМХО.

я хотел сказать что XML тоже текст, то есть предпологал предварительную конвертацию из BLAST -а

хотя если подумать Oracle лучший кандидат на это. Клобы можно хранить как файлы, а доступ к файлам, если не нужна модификация - а только чтение - почти мгновенный через file mapping. И будет это хорошо и быстро даже на среднем компьютере. Правда надежность будет также ниже.

...

Рейтинг:

0 / 0

09.12.2004, 00:54

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32819741

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

хотел сказать что XML тоже текст, то есть предпологал предварительную конвертацию из BLAST -а

А, понятно. Видимо, Вы немного не поняли. BLAST - это не формат хранения, а алгоритм обработки. Соответственно, речь идёт не о том, как сохранить текст структурированно, а о том, как обрабатывать длинные неструктурированные строки с помощью алгоритма BLAST.

И будет это хорошо и быстро даже на среднем компьютере
А что такое в данном случае "средний компьютер", если речь идёт об обработке 3-4Tb?

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

09.12.2004, 01:28

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32820038

Nikolay Kulikov

Участник

Откуда: Москва

Сообщения: 713

Рейтинг: 0 / 0

DB2 + Db2 Information Integrator (Non relational Wrappers)

Куча лабораторий использует и это в некоторой степени
конек DB2 Inofrmation Integrator.

Life Sciences sources: Kyoto Encyclopedia of Genes and Genomes (KEGG) and data sources accessible by Entrez, BLAST, HMMER (including new support for HMMSEARCH tool), and BioRS.

Почитай
http://www-1.ibm.com/industries/healthcare/doc/content/bin/blast.pdf
http://www.google.ru/search?q=cache:TK0pLpDnZpUJ:sites.computer.org/debull/A04sept/ibm.ps+db2+blast+references&hl=ru&client=firefox-a
http://www.research.ibm.com/journal/sj/414/haas.pdf
http://www.research.ibm.com/journal/sj/402/haas.pdf

P.S. Если интересно пиши письма.

...

Рейтинг:

0 / 0

09.12.2004, 10:38

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32820059

U-gene

Участник

Откуда: Москва. Россия

Сообщения: 1 532

Рейтинг: 0 / 0

Kет 10 (чуть поболе) назад работал в институте молекулярной генетики, в отделе непосредственно связанным с мат.анализом этих самых науклеотидных последовательностей. Соответсвенно имел дело и с БД таких последовательностей. В то время форматов БД было несколько (не меньше 4х), нов общих чертах они были похожи. Кажадя запись имела загловок с перечнем полей, описывающих ее (что-то типа "организм", "когда" и "где была получена" и т.д. и т.п.) и сама последовательность. Фишка в том, что поскольку нуклеотидная последовательность использует по большому счету 4 символа (правда в ДНК и в РНК они немножко разные) то эту последовательнось хранят в сильно сжатом виде - пракитчески 2 бита на символ. СУБД не было - для работы с БД, представляющей собой набор файлов, прилагались библиотеки, реализующие функции типа поиск по полям извлечение последовательности и .т.д. и т.п. . Самая большая проблема была - объем. Еcли учесть что тогда работали на DOS 3.3 где объем диска ограничен 32 мегабайтами (если не ошибаюсь), то приходилось изврашаться по всякому какие то оособые драйвера дисков, хитрые програмно-управляемые накопители на ленточках, жуткодорогая (в то время) магнитооптика......

Помню, библиотеки приходили на С, а я их переделывал под С++ , пытаясь изобразить некий абстрактный класс со стандартными методами для работы с любым форматом, ну и его реализации - для каждого формата своя. Уже не помню - сделал или нет....

...

Рейтинг:

0 / 0

09.12.2004, 10:46

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32820081

Sarin

Участник

Откуда: Земля, Солнечная система.

Сообщения: 14 565

Рейтинг: 0 / 0

Oracle. БД до 16Tb.

...

Рейтинг:

0 / 0

09.12.2004, 10:51

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32820082

U-gene

Участник

Откуда: Москва. Россия

Сообщения: 1 532

Рейтинг: 0 / 0

О! так там же все написано!

.......Узнаю знакомые слова - GenBank, EMBL :)

...

Рейтинг:

0 / 0

09.12.2004, 10:51

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32820102

AVVS

Участник

Сообщения: 275

Рейтинг: 0 / 0

Попробуйте связаться вот с этими:

http://www.empproject.com

Очень много они этом смысле наработали. Используют ORACLE и XML и
специфический формат для аннотирования биоданных.

Удачи!

...

Рейтинг:

0 / 0

09.12.2004, 10:56

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32820115

U-gene

Участник

Откуда: Москва. Россия

Сообщения: 1 532

Рейтинг: 0 / 0

Кстати... оценивая общий объем этих файлов и этих файлов , что то не вижу я тут терабайтов... максимум 100 гигов для многих организмов. Например файл с гворящим названием human_genomic.gz вести 814 мегов - то есть около 3 гигов в распакованном виде.

...

Рейтинг:

0 / 0

09.12.2004, 10:58

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32821121

aou

Гость

Nikolay KulikovDB2 + Db2 Information Integrator (Non relational Wrappers)

Оно, конечно, хорошо, но по сути дела информация в DB2 и не хранится. Просто по запросу SQL, включающему в себя, например, BLAST подзапрос, DB2 направляет запрос на внешний BLAST сервер и получив ответ интегрирует его в результат SQL запроса.

То есть собственоо генетических данных DB2 в данном случае не хранит и не обрабатывает.

...

Рейтинг:

0 / 0

09.12.2004, 15:11

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32821152

ЗоринАндрей

Участник

Откуда: Санкт-Петербург

Сообщения: 3 059

Рейтинг: 0 / 0

Having a BLAST Data Mining in Oracle 10g:Implementing A Bioinformatics Target Database.
Oracle Life Sciences User Group Meeting – Reston, VA 2004
John Burke, Ph.D.
UCB Research, Inc.

Inclusion of BLAST in database
No need to build interface between DB and BLAST

No need to move data from DB to BLAST

Ability to execute other queries combined with BLAST

...

Рейтинг:

0 / 0

09.12.2004, 15:22

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32822032

Nikolay Kulikov

Участник

Откуда: Москва

Сообщения: 713

Рейтинг: 0 / 0

2: aou Что ты подразумеваешь под обработкой??? Ты работаешь с BLAST данными как с таблицами. Что хочешь то в запросах и обрабатывай.... Хочешь mining хочешь статистику etc...

...

Рейтинг:

0 / 0

09.12.2004, 22:09

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32822109

aou

Гость

Nikolay Kulikov2: aou Что ты подразумеваешь под обработкой??? Ты работаешь с BLAST данными как с таблицами. Что хочешь то в запросах и обрабатывай.... Хочешь mining хочешь статистику etc...

BLAST сервер (NCBI, например) один запрос обрабатывает 30-40 секунд (биологи говорят, что в моменты пиковой нагрузки результата пол часа ждать можно). Результат, грубо говоря - текстовый файл, который, естественно парсится в таблицу. Этут таблицу DB2 уже и использует. Где здесь уникальные преимущества DB2?

Сдается мне что в любых реализациях идет тупой Full-Table-Scan с приложением BLAST ко всем записям в базе. Берем из базы последовательность, сравниваем с заданной, вычисляем "коэффицент похожести". И так для всех n тера/гигабайт данных.

Пожалуйста поправьте меня! Есть ли СУБД, которая, например, за счет хитрого индексирования позволяет избежать перелопачивания всего массива данных?

To: ЗоринАндрей - то что сделано на Оракле действительно больше впечатляет, чем сделанное в DB2, но ведь по прежнему имеет место полное сканирование базы по каждому запросу?

...

Рейтинг:

0 / 0

10.12.2004, 02:29

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32822122

c127

Гость

2 aou

>Есть ли СУБД, которая, например, за счет хитрого индексирования позволяет избежать перелопачивания всего массива данных?

Врядли кто-то из серверов может создать такой индекс. Максимум что можно сделать по-моему это сначала с помощью индекса как-то отобрать строки подозрительные на совпадение (т.е. отфильтровать заведомо неподходящие), а потом сканировать уже внутри этого множества. Например сайбейз ASA умеет использовать индекс для like 'ccccc%', так что префиксы отфильтруются. Но для like '%ccccc' индекс уже не используется. В более сложных случаях по-видимому нужно будет просматривать все.

Как развитие метода: можно попробовать предобработать последовательности символов, классифицировать их и сложить эту информацию в таблицы а потом попытаться это использовать при сужении поиска.

...

Рейтинг:

0 / 0

10.12.2004, 04:13

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32822454

Nikolay Kulikov

Участник

Откуда: Москва

Сообщения: 713

Рейтинг: 0 / 0

В DB2 есть такое понятие MQT в (ORA,MSSQL - это называется materialuzed views) + cached tables с твоего BLAST и.т.д. Берешь строишь на них индексы etc. Так что это вопросы оптимизации.

Я бы в таком случае сделабы следующие шаги
1) Создал nicknames на BLAST
2) Создал cached tables
3) Посмотрел как работает твое предложение.
4) Запустил Design Advisor и он бы мне порекомендовал какие индексы и MQT построить на твои запросы.

Субд есть Informix называется. Только такой индекс тебе самому придется написать.

...

Рейтинг:

0 / 0

10.12.2004, 10:36

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32826052

U-gene

Участник

Откуда: Москва. Россия

Сообщения: 1 532

Рейтинг: 0 / 0

Забавно это все читать, ей-богу....:) По уровню осведомлености спорщиков - это покруче, чем спор Каше vs. Все остальное....Предлагается использовать "Одна ген. последовательность" LIKE "другая ген. последовательность"......и куда же тут индексы впихнуть??? АГА!!! Ребяты - вы о чем? я уже почти нифига не помню, но что сам делал - это использование для расссчета того самого "коэффициента похожести" марковских цепей длиной 64 элемента, причем каждый элемент представлял собой 3 нуклеотида имеет свой вес и вот такая хренотень вычисляется на участке длиной в 50000 нуклеотидов....а участков таких несколько тысяч.......я рассчет запускал и неделю мог смело на работу не ходить... ну конечно, на 386-м процессоре с мат.сопроцессором....зато и БД тогда наверняка на порядок меньше были......Время рассчета таких "коэффициентов" несравненно больше, чем время работы с БД.......Какие, нафиг, индексы? :)

...

Рейтинг:

0 / 0

14.12.2004, 10:20

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32826655

SergSuper

Участник

Откуда: SPb

Сообщения: 5 995

Рейтинг: 0 / 0

оффтопик:
А что получается в результате? Для чего это выискивание совпадений?

...

Рейтинг:

0 / 0

14.12.2004, 13:51

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32826804

Nikolay Kulikov

Участник

Откуда: Москва

Сообщения: 713

Рейтинг: 0 / 0

2U-gene. Я в отпуске выйду закину пару интересных документов. Но ты прав. БД в таких задачах немного для другого нужна...

...

Рейтинг:

0 / 0

14.12.2004, 14:41

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32828068

U-gene

Участник

Откуда: Москва. Россия

Сообщения: 1 532

Рейтинг: 0 / 0

Зачем это нужно и почему так сложно. Наверное потому,что никто не знает, как вся эта штука работает и все хотят узнать как. Некоторые вещи известны и даже прочитан весь человеческий геном, но это как книга на незнакомом языке

Вот одна из задач. Мой пример очень приблизительный (реальные названия нуклеотидов не используются, никаких точных последовательностей я не помню). Например известен ген "мамамылараму" то есть точно выяснено, что эта последовательность является является реально кодирующей. В геноме она может быть разбита на куски (экзоны) которые разбиты некодирующими участками - интронами. И вот выделил кто-то цепь - "аамамамымамамырмуаамммаарыыамыларрмуамыамуумаамыамурмууумаммамаылараму", и ему нужно узнать, есть ли в такой цепи этот ген (или другие гены)? Конечно, уже известны некоторые вещи - например , что последовательность "амы" обозночает начало экзона, "рму" - конец. Однако эти же куски могут встречаться и в других местах экзонов и интронов, где они несут другой смысл (или никакого смысла). И еще известна куча других закономерностей (которые иногда могут и не выполняться). И после такого разбора ...

аамамамымамамырмуаамммаарыыамыларрмуамыамуумаамыамурмууумаммамылараму

...в результате должно получиться...

аамамамы мамамы рмуаамммаарыыамы лар рмуамыамуумаамы аму рмууумаммамаылараму

...хотя , если сравнивать в лоб (типа использовать очень сложный LIKE:) ), то может получиться и...

аа мамамы мамамырмуаамммаарыыамыларрмуамуамыумаамыамурмууумаммамаы лараму

...и как то еще , и все это будут неверные ответы. Я еще раз повторю, что мой пример абсолютно надуман и схематичен. Все еще гораздо сложнее. и есть другие задачи и для их решения используется всевозможные математические методы. В общем БД здесь дело далеко не первое.

...

Рейтинг:

0 / 0

15.12.2004, 11:34

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32828529

aou

Гость

to: U-gene

Сомнений нет - алгоритмы сложные. Вопрос состоит в том, возможно ли средствами СУБД сузить круг обрабатываемых цепочек?

Например (далее идут фантазии полного дилетанта), сначала средствами СУБД найти все записи, в которых встречаются 'мам' & 'ама' & 'мам' & 'амы' & 'мыл' и т.д. (все возможные участки из трех букв). А затем уже по этим цепочкам-кандидатам вести честный поиск по полной программе.

Или всегда в таких случаях делается полный перебор всей базы?

...

Рейтинг:

0 / 0

15.12.2004, 14:13

| Ответить | Цитировать | Написать

СУБД в биоинформатике

#32829313

Alexey Rovdo

Гость

В биоинформатике очень распространены объектные СУБД. В первую очередь VDS от Versant. Например, см.:
http://www.versant.com/press/2002/021113-sciencefactory.html

Именно объектные СУБД и именно VDS позволяет удобно хранить и обрабатывать такие данные, как описания длинных молекулярных цепочек.
Собственно VDS и появилась в частности как результат разработок Versant для клиентов из сферы биоинформатики и биоинжиниринга.

Что же касается скорости и емкости, то мне известны примеры баз объемом в несколько десятков терабайт, а сама база может быть распределенной и лежать на множестве серверов.

С уважением. Алексей Ровдо.

...

Рейтинг:

0 / 0

15.12.2004, 19:52

| Ответить | Цитировать | Написать

25 сообщений из 26, страница 1 из 2

все

Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД в биоинформатике

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=35&msg=32821152&tid=1553995]:	0ms
get settings:	5ms
get forum list:	12ms
check forum access:	2ms
check topic access:	2ms
track hit:	59ms
get topic data:	8ms
get forum data:	2ms
get page messages:	41ms
get tp. blocked users:	1ms
others:	198ms

total:	330ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы