powered by simpleCommunicator - 2.0.59     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД в биоинформатике
26 сообщений из 26, показаны все 2 страниц
СУБД в биоинформатике
    #32819624
aou
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
aou
Гость
Просто интересно. А какие СУБД используются в биоинформатике? Например - базы, используемые в алгоритме BLAST где и как хранятся?

Если в кратце - то типичная задача следующая:

Сама база данных - строки длинной от 100 до 30000 символов (белковые или ДНК последовательности). Объем - от 20Gb до 3-4Tb.

Задача - найти в базе все записи *похожие* на заданную. То есть не такуюже, не подстроку, а именно похожую запись. Ну например, отличающуюся на 5-10 случайных символов от заданной.

Подробности здесь: http://www.ncbi.nlm.nih.gov/BLAST/
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32819644
Lepsik
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MS sqL 2005 позволяет это делать. Только структуру придется разложить как XML документ и хранить в поле типа XML
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32819709
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не думаю, что MS SQL 2005 ИСПОЛЬЗУЕТСЯ вообще, тем более в биоинформатике. Потому что его ещё нет.
Также не очень понятно зачем раскладывать в XML, когда BLAST работает с текстовыми строками. Что-то здесь не так :)
Мне кажется, последовательность надо было бы хранить в CLOB и обрабатывать посредством UDF. Скорее всего, в MS SQL нет встроенной функции, реализующей BLAST.

3-4 ТБ также говорят о том, что задача не очень тривиальная. На мой взгляд, нужны достаточно хорошие вычислительные мощности. Желательно распараллеливание, поскольку объёмы достаточно большие.
Соответственно, нужно искать СУБД, способную эффективно параллельно обрабатывать достаточно большие объёмы данных с помощью UDF (не исключено, что реализация BLAST уже существует в виде UDF для какой-нибудь СУБД).
Не исключаю, что надо посмотреть в сторону специализированных СУБД. Может, есть такие?

Смотря на верхнюю границу объёма данных, предложил бы Терадату, если был бы уверен, что есть UDF для поддержки BLAST. Но не уверен.


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32819715
Lepsik
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
[quot Константин Лисянский]Не думаю, что MS SQL 2005 ИСПОЛЬЗУЕТСЯ вообще, тем более в биоинформатике. Потому что его ещё нет.

Есть не в полной версии - без инструментов.

--Также не очень понятно зачем раскладывать в XML, когда BLAST работает с текстовыми строками. Что-то здесь не так :)

что и собственно и есть XML.

---обрабатывать посредством UDF. Скорее всего, в MS SQL нет встроенной функции, реализующей BLAST.

зато есть многое что позволяет это реализовать.

--3-4 ТБ также говорят о том, что задача не очень тривиальная. На мой взгляд, нужны достаточно хорошие вычислительные мощности.

скажем так я оперирую обьектами 20-70 мег. достаточно легко.
а Юкон делает это еще проще, посокльку не хранит в тупую XML обьект как набор бинарных данных а его структурирование представление с легким доступом к любой части.
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32819723
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
что и собственно и есть XML.

ОК. Бласт работает с плоскими текстовыми строками без какой-либо разметки тегами.
XML в этом случае просто будет лишним оверхедом. ИМХО.

а Юкон делает это еще проще, посокльку не хранит в тупую XML обьект как набор бинарных данных а его структурирование представление с легким доступом к любой части.

Если это структурированное представление похоже на DOM, то тормоза и жуткий расход памяти обеспечены.
Но, ояпять-таки, BLAST не об этом. На мой взгляд, XML тут, всё-таки, не при чём.


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32819724
Lepsik
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
--XML в этом случае просто будет лишним оверхедом. ИМХО.

я хотел сказать что XML тоже текст, то есть предпологал предварительную конвертацию из BLAST -а


хотя если подумать Oracle лучший кандидат на это. Клобы можно хранить как файлы, а доступ к файлам, если не нужна модификация - а только чтение - почти мгновенный через file mapping. И будет это хорошо и быстро даже на среднем компьютере. Правда надежность будет также ниже.
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32819741
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
хотел сказать что XML тоже текст, то есть предпологал предварительную конвертацию из BLAST -а

А, понятно. Видимо, Вы немного не поняли. BLAST - это не формат хранения, а алгоритм обработки. Соответственно, речь идёт не о том, как сохранить текст структурированно, а о том, как обрабатывать длинные неструктурированные строки с помощью алгоритма BLAST.

И будет это хорошо и быстро даже на среднем компьютере
А что такое в данном случае "средний компьютер", если речь идёт об обработке 3-4Tb?

С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32820038
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DB2 + Db2 Information Integrator (Non relational Wrappers)

Куча лабораторий использует и это в некоторой степени
конек DB2 Inofrmation Integrator.

Life Sciences sources: Kyoto Encyclopedia of Genes and Genomes (KEGG) and data sources accessible by Entrez, BLAST, HMMER (including new support for HMMSEARCH tool), and BioRS.

Почитай
http://www-1.ibm.com/industries/healthcare/doc/content/bin/blast.pdf
http://www.google.ru/search?q=cache:TK0pLpDnZpUJ:sites.computer.org/debull/A04sept/ibm.ps+db2+blast+references&hl=ru&client=firefox-a
http://www.research.ibm.com/journal/sj/414/haas.pdf
http://www.research.ibm.com/journal/sj/402/haas.pdf

P.S. Если интересно пиши письма.
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32820059
Фотография U-gene
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Kет 10 (чуть поболе) назад работал в институте молекулярной генетики, в отделе непосредственно связанным с мат.анализом этих самых науклеотидных последовательностей. Соответсвенно имел дело и с БД таких последовательностей. В то время форматов БД было несколько (не меньше 4х), нов общих чертах они были похожи. Кажадя запись имела загловок с перечнем полей, описывающих ее (что-то типа "организм", "когда" и "где была получена" и т.д. и т.п.) и сама последовательность. Фишка в том, что поскольку нуклеотидная последовательность использует по большому счету 4 символа (правда в ДНК и в РНК они немножко разные) то эту последовательнось хранят в сильно сжатом виде - пракитчески 2 бита на символ. СУБД не было - для работы с БД, представляющей собой набор файлов, прилагались библиотеки, реализующие функции типа поиск по полям извлечение последовательности и .т.д. и т.п. . Самая большая проблема была - объем. Еcли учесть что тогда работали на DOS 3.3 где объем диска ограничен 32 мегабайтами (если не ошибаюсь), то приходилось изврашаться по всякому какие то оособые драйвера дисков, хитрые програмно-управляемые накопители на ленточках, жуткодорогая (в то время) магнитооптика......

Помню, библиотеки приходили на С, а я их переделывал под С++ , пытаясь изобразить некий абстрактный класс со стандартными методами для работы с любым форматом, ну и его реализации - для каждого формата своя. Уже не помню - сделал или нет....
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32820081
Sarin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Oracle. БД до 16Tb.
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32820082
Фотография U-gene
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
О! так там же все написано!

.......Узнаю знакомые слова - GenBank, EMBL :)
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32820102
AVVS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Попробуйте связаться вот с этими:

http://www.empproject.com

Очень много они этом смысле наработали. Используют ORACLE и XML и
специфический формат для аннотирования биоданных.

Удачи!
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32820115
Фотография U-gene
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кстати... оценивая общий объем этих файлов и этих файлов , что то не вижу я тут терабайтов... максимум 100 гигов для многих организмов. Например файл с гворящим названием human_genomic.gz вести 814 мегов - то есть около 3 гигов в распакованном виде.
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32821121
aou
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
aou
Гость
Nikolay KulikovDB2 + Db2 Information Integrator (Non relational Wrappers)

Оно, конечно, хорошо, но по сути дела информация в DB2 и не хранится. Просто по запросу SQL, включающему в себя, например, BLAST подзапрос, DB2 направляет запрос на внешний BLAST сервер и получив ответ интегрирует его в результат SQL запроса.

То есть собственоо генетических данных DB2 в данном случае не хранит и не обрабатывает.
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32821152
Фотография ЗоринАндрей
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Having a BLAST Data Mining in Oracle 10g:Implementing A Bioinformatics Target Database.
Oracle Life Sciences User Group Meeting – Reston, VA 2004
John Burke, Ph.D.
UCB Research, Inc.


Inclusion of BLAST in database
No need to build interface between DB and BLAST

No need to move data from DB to BLAST

Ability to execute other queries combined with BLAST
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32822032
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2: aou Что ты подразумеваешь под обработкой??? Ты работаешь с BLAST данными как с таблицами. Что хочешь то в запросах и обрабатывай.... Хочешь mining хочешь статистику etc...
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32822109
aou
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
aou
Гость
Nikolay Kulikov2: aou Что ты подразумеваешь под обработкой??? Ты работаешь с BLAST данными как с таблицами. Что хочешь то в запросах и обрабатывай.... Хочешь mining хочешь статистику etc...

BLAST сервер (NCBI, например) один запрос обрабатывает 30-40 секунд (биологи говорят, что в моменты пиковой нагрузки результата пол часа ждать можно). Результат, грубо говоря - текстовый файл, который, естественно парсится в таблицу. Этут таблицу DB2 уже и использует. Где здесь уникальные преимущества DB2?

Сдается мне что в любых реализациях идет тупой Full-Table-Scan с приложением BLAST ко всем записям в базе. Берем из базы последовательность, сравниваем с заданной, вычисляем "коэффицент похожести". И так для всех n тера/гигабайт данных.

Пожалуйста поправьте меня! Есть ли СУБД, которая, например, за счет хитрого индексирования позволяет избежать перелопачивания всего массива данных?

To: ЗоринАндрей - то что сделано на Оракле действительно больше впечатляет, чем сделанное в DB2, но ведь по прежнему имеет место полное сканирование базы по каждому запросу?
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32822122
c127
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
2 aou

>Есть ли СУБД, которая, например, за счет хитрого индексирования позволяет избежать перелопачивания всего массива данных?

Врядли кто-то из серверов может создать такой индекс. Максимум что можно сделать по-моему это сначала с помощью индекса как-то отобрать строки подозрительные на совпадение (т.е. отфильтровать заведомо неподходящие), а потом сканировать уже внутри этого множества. Например сайбейз ASA умеет использовать индекс для like 'ccccc%', так что префиксы отфильтруются. Но для like '%ccccc' индекс уже не используется. В более сложных случаях по-видимому нужно будет просматривать все.

Как развитие метода: можно попробовать предобработать последовательности символов, классифицировать их и сложить эту информацию в таблицы а потом попытаться это использовать при сужении поиска.
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32822454
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В DB2 есть такое понятие MQT в (ORA,MSSQL - это называется materialuzed views) + cached tables с твоего BLAST и.т.д. Берешь строишь на них индексы etc. Так что это вопросы оптимизации.

Я бы в таком случае сделабы следующие шаги
1) Создал nicknames на BLAST
2) Создал cached tables
3) Посмотрел как работает твое предложение.
4) Запустил Design Advisor и он бы мне порекомендовал какие индексы и MQT построить на твои запросы.


Субд есть Informix называется. Только такой индекс тебе самому придется написать.
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32826052
Фотография U-gene
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Забавно это все читать, ей-богу....:) По уровню осведомлености спорщиков - это покруче, чем спор Каше vs. Все остальное....Предлагается использовать "Одна ген. последовательность" LIKE "другая ген. последовательность"......и куда же тут индексы впихнуть??? АГА!!! Ребяты - вы о чем? я уже почти нифига не помню, но что сам делал - это использование для расссчета того самого "коэффициента похожести" марковских цепей длиной 64 элемента, причем каждый элемент представлял собой 3 нуклеотида имеет свой вес и вот такая хренотень вычисляется на участке длиной в 50000 нуклеотидов....а участков таких несколько тысяч.......я рассчет запускал и неделю мог смело на работу не ходить... ну конечно, на 386-м процессоре с мат.сопроцессором....зато и БД тогда наверняка на порядок меньше были......Время рассчета таких "коэффициентов" несравненно больше, чем время работы с БД.......Какие, нафиг, индексы? :)
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32826655
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
оффтопик:
А что получается в результате? Для чего это выискивание совпадений?
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32826804
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2U-gene. Я в отпуске выйду закину пару интересных документов. Но ты прав. БД в таких задачах немного для другого нужна...
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32828068
Фотография U-gene
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Зачем это нужно и почему так сложно. Наверное потому,что никто не знает, как вся эта штука работает и все хотят узнать как. Некоторые вещи известны и даже прочитан весь человеческий геном, но это как книга на незнакомом языке

Вот одна из задач. Мой пример очень приблизительный (реальные названия нуклеотидов не используются, никаких точных последовательностей я не помню). Например известен ген "мамамылараму" то есть точно выяснено, что эта последовательность является является реально кодирующей. В геноме она может быть разбита на куски (экзоны) которые разбиты некодирующими участками - интронами. И вот выделил кто-то цепь - "аамамамымамамырмуаамммаарыыамыларрмуамыамуумаамыамурмууумаммамаылараму", и ему нужно узнать, есть ли в такой цепи этот ген (или другие гены)? Конечно, уже известны некоторые вещи - например , что последовательность "амы" обозночает начало экзона, "рму" - конец. Однако эти же куски могут встречаться и в других местах экзонов и интронов, где они несут другой смысл (или никакого смысла). И еще известна куча других закономерностей (которые иногда могут и не выполняться). И после такого разбора ...

аамамамымамамырмуаамммаарыыамыларрмуамыамуумаамыамурмууумаммамылараму

...в результате должно получиться...

аамамамы мамамы рмуаамммаарыыамы лар рмуамыамуумаамы аму рмууумаммамаылараму

...хотя , если сравнивать в лоб (типа использовать очень сложный LIKE:) ), то может получиться и...

аа мамамы мамамырмуаамммаарыыамыларрмуамуамыумаамыамурмууумаммамаы лараму

...и как то еще , и все это будут неверные ответы. Я еще раз повторю, что мой пример абсолютно надуман и схематичен. Все еще гораздо сложнее. и есть другие задачи и для их решения используется всевозможные математические методы. В общем БД здесь дело далеко не первое.
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32828529
aou
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
aou
Гость
to: U-gene

Сомнений нет - алгоритмы сложные. Вопрос состоит в том, возможно ли средствами СУБД сузить круг обрабатываемых цепочек?

Например (далее идут фантазии полного дилетанта), сначала средствами СУБД найти все записи, в которых встречаются 'мам' & 'ама' & 'мам' & 'амы' & 'мыл' и т.д. (все возможные участки из трех букв). А затем уже по этим цепочкам-кандидатам вести честный поиск по полной программе.

Или всегда в таких случаях делается полный перебор всей базы?
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32829313
Alexey Rovdo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В биоинформатике очень распространены объектные СУБД. В первую очередь VDS от Versant. Например, см.:
http://www.versant.com/press/2002/021113-sciencefactory.html

Именно объектные СУБД и именно VDS позволяет удобно хранить и обрабатывать такие данные, как описания длинных молекулярных цепочек.
Собственно VDS и появилась в частности как результат разработок Versant для клиентов из сферы биоинформатики и биоинжиниринга.

Что же касается скорости и емкости, то мне известны примеры баз объемом в несколько десятков терабайт, а сама база может быть распределенной и лежать на множестве серверов.

С уважением. Алексей Ровдо.
...
Рейтинг: 0 / 0
СУБД в биоинформатике
    #32829436
c127
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
2 aou

>Сомнений нет - алгоритмы сложные. Вопрос состоит в том, возможно ли средствами СУБД сузить круг обрабатываемых цепочек?

Можно конечно, я же говорил как. Классифицируй последовательностьи, сложи эту информацию в таблицы и используй их при поиске. Но классификатор будет сложный и предметно-зависимый, его в любом случае нужно будет строить руками с привлечением специалиста в предметной области. Это основная проблема, а не то, как его сложить в РСУБД. Свести все к одному индексу точно не удастся, забудь об этом. По большому счету к конкретной технологии баз данных (РСУБД, ООБД, АБВГД, ...) это отношения не имеет и поэтому до лампочки, используются ли РСУБД или что-то другое, везде будет одинаково плохо.
...
Рейтинг: 0 / 0
26 сообщений из 26, показаны все 2 страниц
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД в биоинформатике
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]