СУБД для хранения генома. / Сравнение СУБД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД для хранения генома.

56 сообщений из 56, показаны все 3 страниц

все

СУБД для хранения генома.

#39658810

rigor mortis

Гость

Привет.
Встал вопрос выбора БД для хранения генома. Должна ли это быть sql или nosql БД, то же вопрос. Структура информации и работа с ней заключаются в следующем:

- геном представляет собой непрерывную цепочку четвертичных бит (ДНК-нуклеотидов), то есть каждый бит может содержать одно из
значений А, Т, Г, Ц;

- длина генома от 500 (некоторые бактерии) до нескольких миллиардов (3200000 у млекопитающих);

- геном содержит последовательности бит, представляющих собой функциональные участки: начало гена, пустые участки гена,
кодирующие участки гена, "хвост" гена. А так же прочие сервисные и пустые последовательности, которые должны иметь
характеристику;

- в геноме должна быть возможность поиска определённой последовательности по 40-60% совпадений (искомая последовательность до
2000 бит) и по точному совпадению более коротких последовательность (искомая последовательность до 50 бит). А так же сравнение
двух последовательностей.

...

Рейтинг:

0 / 0

09.06.2018, 12:42

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39659100

softwarer

Участник

Откуда: 127.0.0.1

Сообщения: 51 965

Рейтинг: 0 / 0

rigor mortis,

задача как она описана вообще не особо для БД, имхо. По сути нужен список blob-ов и какой-то хитрый индекс по нему. Реализовывать этот индекс на 99.99% всё равно придётся самостоятельно, а в остальном функциональность БД просто не требуется.

...

Рейтинг:

0 / 0

09.06.2018, 20:26

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39659135

Siemargl

Участник

Откуда: 010100

Сообщения: 6 423

Рейтинг: 0 / 0

гуглим gene database

похоже, много людей уже решали эти вопросы

...

Рейтинг:

0 / 0

09.06.2018, 23:07

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39659136

Щиче

Участник

Откуда: Чебоксары

Сообщения: 582

Рейтинг: 0 / 0

rigor mortis, NoSQL обслуживают специфические случаи. Берите реляционку, она универсальна. У вас геном сводится к хранению чисел, которые надо хранить в блобах (как целое). Несколько миллиардов записей на организм для любой СУБД слишком круто. Но вот держать таблицу с данными организма и в отдельном поле геном будет удобно.

...

Рейтинг:

0 / 0

09.06.2018, 23:09

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39659173

982183

Участник

Откуда: VL

Сообщения: 2 213

Рейтинг: 0 / 0

Снова попытки изобрести велосипед.
Хорошо, что если в учебных целях.

...

Рейтинг:

0 / 0

10.06.2018, 04:54

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39659194

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

читай про hadoop и map-reduce, типичная для него задача.

...

Рейтинг:

0 / 0

10.06.2018, 10:22

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39659246

tip78

Участник

Откуда: Москва

Сообщения: 1 111

Рейтинг: 0 / 0

а как же РНК?
по последним исследованиям, ДНК хранит много базовых инструкций, а вся инфа по специфике конкретного вида - в РНК

...

Рейтинг:

0 / 0

10.06.2018, 13:46

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39659360

rigor mortis

Гость

tip78а как же РНК?
по последним исследованиям, ДНК хранит много базовых инструкций, а вся инфа по специфике конкретного вида - в РНК
Ну это вообще ни в какие ворота.

...

Рейтинг:

0 / 0

11.06.2018, 00:21

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39660954

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Давайте пока забъем болт на возможную экономию.
И представим геном текстовой строкой из алфавита 4х букв.

Просто нам так будет проще с терминологией.

...

Рейтинг:

0 / 0

14.06.2018, 20:01

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39660956

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

maytonДавайте пока забъем болт на возможную экономию.
И представим геном текстовой строкой из алфавита 4х букв.

Просто нам так будет проще с терминологией.
Ну не 4, а все же больше.

Про РНК уже вспомнили.

И AFAIK в целом оснований больше и в редких ситуациях основания вроде могут быть и другими (пруф. не дам, даже не помню, где это читал)

последовательности по 40-60% совпадений

Совершенно НЕ понятно. Как считать % совпадений и что вообще подразумевается под "совпадением"

Насколько я помню ДНК - парная. Т.ч. не очень понятно, как считать "совпадения". Никто же не мешает, в одной БД основания из одной цепочки выписать, а искать по основаниям из паралелльной цепочки. В общем, не знаю, как принято в генной инженерии кодировать.

Задача очень похоже на индексацию текста и нечеткий поиск. Вполне возможно, какие-то существующие алгоритмы вполне могут подойти.

Побить каким-то образом миллиардную последовательность на маленькие кусочки и искать по ним (в принципе, никто не мешает резать куски, что бы они взаимно накладывались друг на друга). Тогда БД будет осмысленна. Сначала находим сопадающие кусочки, потом SELECT'ами определяем какому гену они принадлежат.

...

Рейтинг:

0 / 0

14.06.2018, 20:30

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661036

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Автор пишет

Код: sql

- длина генома от 500 (некоторые бактерии) до нескольких миллиардов (3 200 000 у млекопитающих);

Переводя на наш язык. БД должна хранить строки от 500 символов до 3 мега-символов.

Здесь особо нечего выбирать. Здесь нужно key-value хранилище.

Типа

keyvalueСаблезубая мышь.genomATGCATGCATGCATGCATGC.....Комар писклявый кусачий.genomAAAAAGGGGGTTTTTCCCCCC....
Согласен с softwarer по поводу акцента на алгоритмах. По большему счету здесь даже СУБД особо не нужна.
Нужен эффективный алгоритм индексирования. Учитывая специфику - это не текстовый поиск. Могу чуть
позже аргументировать почему. Но сперава задам вопросы Ригор-Мортису.

По поводу специализированных СУБД для генетики. Здесь я не готов ничего комментировать.
Но скорее всего их сила не в хранении а в обработке. Тоесть в алгоритмах сопоставления нечетких ключей.
И я вангую что подобных проектов очень мало и они стоят денег.

...

Рейтинг:

0 / 0

15.06.2018, 08:14

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661078

982183

Участник

Откуда: VL

Сообщения: 2 213

Рейтинг: 0 / 0

maytonИ я вангую что подобных проектов очень мало и они стоят денег.
На практике мало кто оперирует полностью расшифрованным геномом.
Используется технология "полосок" на маркере.

...

Рейтинг:

0 / 0

15.06.2018, 09:20

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661091

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

А мы можем уйти от биологии и плавно подойти к.. Терминологии которая общепринята в it?

...

Рейтинг:

0 / 0

15.06.2018, 09:36

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661099

982183

Участник

Откуда: VL

Сообщения: 2 213

Рейтинг: 0 / 0

maytonА мы можем уйти от биологии и плавно подойти к.. Терминологии которая общепринята в it?
Чаще всего на практике используются аналоговые технологии, а не цифровые.

...

Рейтинг:

0 / 0

15.06.2018, 09:49

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661168

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

982183,

Как энтузиаст и бывший радио-любитель я готов поддержать тему аналоговой техники. Но мне кажется будет разумным обсуждать здесь постановку в терминах it и в русле Сравнения СУБД.

Рнк-днк и и прочаа биологическая атрибутика - В форум биологов. Аналоговая техника - тоже оффтоп.

Поверьте старому модератору.

...

Рейтинг:

0 / 0

15.06.2018, 11:24

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661293

SergSuper

Участник

Откуда: SPb

Сообщения: 5 995

Рейтинг: 0 / 0

maytonА мы можем уйти от биологии и плавно подойти к.. Терминологии которая общепринята в it?мне кажется тут как раз именно проблема как перейти
т.е. пока нет модели

...

Рейтинг:

0 / 0

15.06.2018, 14:29

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661330

tip78

Участник

Откуда: Москва

Сообщения: 1 111

Рейтинг: 0 / 0

во1, надо буквы в цифры перевести - 1234
во2, bigint-ами хранить геном под индексами 001 002 003 - как то так
поиск достаточно по первому bigint-у сделать, думаю там уник будет
ну или 2й подключить на крайняк

...

Рейтинг:

0 / 0

15.06.2018, 15:13

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661333

tip78

Участник

Откуда: Москва

Сообщения: 1 111

Рейтинг: 0 / 0

по 18 цифр это 177 777 778 записей для генома в несколько ярдов
но ещё есть вариант в битах хранить: 00 01 11 10

...

Рейтинг:

0 / 0

15.06.2018, 15:16

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661335

tip78

Участник

Откуда: Москва

Сообщения: 1 111

Рейтинг: 0 / 0

т.е. 1 байт будет содержать аж 4 нуклеотида

...

Рейтинг:

0 / 0

15.06.2018, 15:19

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661363

tip78

Участник

Откуда: Москва

Сообщения: 1 111

Рейтинг: 0 / 0

4 нуклеотида это всего 16 уникальных блоков так то
т.е. hex

кстати, интересный способ хранения данных - по горизонтали верхние 3 строчки, по вертикали - нижние

Код: sql

https://youtu.be/L_YByJ2QtUc?t=1h14m34s

...

Рейтинг:

0 / 0

15.06.2018, 15:56

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661449

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

mayton...it и в русле Сравнения СУБД.
....
Рнк-днк и и прочаа биологическая атрибутика - В форум биологов.
....
Поверьте старому модератору.
в общем, все предметная область - в топку

будем обсуждать чем битики и байтики в БД MySQL отличаются от битиков и байтиков в PostgreSQL ? :-)

На последний вопрос, могу сразу дать ответ - ничем. И то и то маленькие кусочки намагниченного жесткого диска. При этом в русле IT и Сравнения СУБД даже ничем не будут отличаться от битиков и байтиков просто в текстовом файле.

СУБД это все же только и не столько система хранения. Сколько система управления и ПОИСКА (SELECT) данных. А вот критерии, алгоритмы и требования к поису как раз очень расплывчатые.

...

Рейтинг:

0 / 0

15.06.2018, 19:17

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661464

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

rigor mortis,

задача то какая? восстановление полного генома по отдельным участкам или всё же поиск вхождений из базы?

...

Рейтинг:

0 / 0

15.06.2018, 20:27

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661476

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Leonid Kudryavtsevбудем обсуждать чем битики и байтики в БД MySQL отличаются от битиков и байтиков в PostgreSQL ? :-)

А я объясню. Я считаю что это очень важно. На самом старте ТЗ договорится о терминологии.

Автор пишет.

Код: sql

1.
2.

- геном представляет собой непрерывную цепочку четвертичных бит (ДНК-нуклеотидов), то есть каждый бит может содержать одно из
значений А, Т, Г, Ц;

Четверичных бит? Вы слышали нечто подобное? И я задаю вам дальше вопрос. Мы будем оперировать символами?
Или битами? Битами какими? В нашем общепринятом понимании или в том в котором мыслит топик-стартер.

Далее. По поводу строк и целых чисел. Другой господин в топике пишет

Код: sql

1.
2.
3.

bigint-ами хранить геном под индексами 001 002 003 - как то так
поиск достаточно по первому bigint-у сделать, думаю там уник будет
ну или 2й подключить на крайняк

Отвечу сразу. Никакого смысла. Вообще никакого. Можно искать пользу в экономии места. Но не забывайте
что нам надо двигать шаблон по геному и искать совпадения или частичные совпадения. Как вы их будете искать?
Двигать биты в четверичных целых? Хм... Ну я-б подумал. Для 3 200 000 нуклеотидов мы получим 3-х мегабайтную
строку в классическом представлении + аппарат строковых операций. Или мы можем децл сэкономить и получить
в 4 раза меньше тоесть 3 200 000 / 4 = 800 000 или 800 килобайт упакованных бит. И кучу головняка с тем
как это матчить. Не забывайте что нам надо двигать информацию кратно позиции нуклеотида а не байта.
Вобщем думайте.

...

Рейтинг:

0 / 0

15.06.2018, 23:10

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661485

tip78

Участник

Откуда: Москва

Сообщения: 1 111

Рейтинг: 0 / 0

mayton, вы утверждаете, что первые 20-40 нуклеотидов не будут уникальными?

...

Рейтинг:

0 / 0

16.06.2018, 00:19

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661486

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

mayton,

вот просто интересно, второй раз за день упоминаю

если мы применим Преобразование Барроуза — Уилера к сохраняемому геному, то вроде уже и не всё так печально с поиском

копать можно в сторону "Суффиксный массив и BWT"

ещё тынц прямо из области ТС

...

Рейтинг:

0 / 0

16.06.2018, 00:21

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661487

tip78

Участник

Откуда: Москва

Сообщения: 1 111

Рейтинг: 0 / 0

а, вот эта часть:
автор- в геноме должна быть возможность поиска определённой последовательности по 40-60% совпадений (искомая последовательность до
2000 бит) и по точному совпадению более коротких последовательность (искомая последовательность до 50 бит). А так же сравнение
двух последовательностей.
ну так в hex упаковать, да и всё

...

Рейтинг:

0 / 0

16.06.2018, 00:21

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661503

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

tip78mayton, вы утверждаете, что первые 20-40 нуклеотидов не будут уникальными?
Я ничего не говорил про уникальнлсть.

...

Рейтинг:

0 / 0

16.06.2018, 08:43

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661507

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

softwarerrigor mortis,

задача как она описана вообще не особо для БД, имхо. По сути нужен список blob-ов и какой-то хитрый индекс по нему. Реализовывать этот индекс на 99.99% всё равно придётся самостоятельно, а в остальном функциональность БД просто не требуется.

Именно.
Да и вообще подход так себе, проектировать тут серьезную базу на форуме, в чате.
Этим надо профессионально заниматься.

...

Рейтинг:

0 / 0

16.06.2018, 09:02

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39661510

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

Парень набросил и слился, а вы тут пыжитесь...

...

Рейтинг:

0 / 0

16.06.2018, 09:09

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39662712

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Мортис. Ну что там? Как дела?

...

Рейтинг:

0 / 0

19.06.2018, 21:48

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39664942

hck1

Участник

Сообщения: 103

Рейтинг: 0 / 0

https://habr.com/company/microsoft/blog/344060/

...

Рейтинг:

0 / 0

24.06.2018, 23:08

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39665857

rigor mortis

Гость

mayton
Четверичных бит? Вы слышали нечто подобное? И я задаю вам дальше вопрос. Мы будем оперировать символами?
Или битами? Битами какими? В нашем общепринятом понимании или в том в котором мыслит топик-стартер.

Для вас открытие что существуют системы счисления, отличные от двоичных?

...

Рейтинг:

0 / 0

26.06.2018, 11:31

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39665874

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

rigor mortismaytonЧетверичных бит? Вы слышали нечто подобное? И я задаю вам дальше вопрос. Мы будем оперировать символами?
Или битами? Битами какими? В нашем общепринятом понимании или в том в котором мыслит топик-стартер.

Для вас открытие что существуют системы счисления, отличные от двоичных?
Вообще ни разу не открытие. Я изучал телеграфию и передачу данных техникуме.
Я вообще - связист по 1-му образованию.

Но в данном конкретном топике во избежание путаницы и mangling, я настаиваю
на том чтобы мы использовали термин бит в нашем смысле в котором его пишут
в 99% случаев в форумах. А данный enum = { A, C, T, G } c аденином и прочими
символами мы рассматривали отдельно как особый тип данных.

Даю руку на отсечение что мы запутаемся в противном случае.

...

Рейтинг:

0 / 0

26.06.2018, 11:39

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39665882

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

rigor mortismaytonЧетверичных бит? Вы слышали нечто подобное? И я задаю вам дальше вопрос. Мы будем оперировать символами?
Или битами? Битами какими? В нашем общепринятом понимании или в том в котором мыслит топик-стартер.

Для вас открытие что существуют системы счисления, отличные от двоичных?
Мне кажется компактность хранения в этой задаче - дело 100500.
Первичны алгоритмы, а их то и нет.

Ну и бы побоялся на начальной стадии разработки, закладываться "впритык". Вдруг еще что-то хранить потребуется, что в 2 бита не влезет.

например из Вики:
Википедия_РНКВсего в РНК насчитывается около 100 разных видов модифицированных нуклеотидов

Википедия_ДНКВ виде исключения, например, у бактериофага PBS1, в ДНК встречается пятый тип оснований — урацил ([U]), пиримидиновое основание, отличающееся от тимина отсутствием метильной группы на кольце, обычно заменяющее тимин в РНК[17].

...

Рейтинг:

0 / 0

26.06.2018, 11:52

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39665925

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

По поводу алгоритмов.

Классика жанра. Кнут-Моррис-Пратт (КМП), и Боуер Мур (БМ). Это алгоритмы поиска строки в строке.
Не намного лучше брут-форса. Они просто слегка улушают брутфорс вводя какие-то эвристические
предположения. И позволяют двигаться по исходной строке более длинными прыжками.

Что есть у нас?

Длинный кусок говна вида

Код: sql

1.
2.
3.
4.
5.

// Мышь саблезубая.
string s1 = "ACTGACTGAAAACCCCTTTGGG......"; 

// Ищем в этой мыши 3 цитозина подряд. 
string s2 = "CCC";

Никаких лексем и токенов нет. Разделителей нет. Стемминга нет. Нет никаких
предположений относительно жанра текста. Что подать на вход текстовому
движку? Непонятно. Не за что зацепиться.

И что надо найти? Факт наличия? Факт наличия + 1 совпадение? Или все вышесказанное
+ вектор совпадений.

Пускай автор скажет что.

Индексирование.

Как? Очевидно что для единоразового поиска это гиблое дело. Индексировать
имеет смысл строку s1 в том случае когда у нас есть понимание того
как ускорить КМП или БМ на основе знаний об s2 (или там будет не s2 а
целое множество подстрок).

Еще вариант. Мы можем имея 1000 геномов саблезубых мышей проиндексировать
наличие факта какого-то под-геномчика и таким образом ускорить поиск. Признаки
положить рядом с мышью в виде хеш-тегов или карты блума. Но здесь я влезаю
в опасную зону прогнозов относительно задачи которую я еще не понимаю.
Надо - ли индексировать много мышей? Будут ли повторные поиски? Это
должен автор мне сказать. Все не хочу больше глядеть в хрустальный шар.

Нечеткий поиск.

Как? Здесь индекс еще менее вероятен.

Можно эдакий Код Хэмминга для скользящих трех цитозинов по геному мыши
и в тех местах где у нас есть 100% совпадение мы проставим в вещественный
вектор 1.0. А там где совпало 2 цитозина а третий символ не совпал будет
соотв 0.66666666. И таких вещественных векторов надо построить по количеству
искомых под-геномчиков s2. Пускай автор скажет это оно или не оно.

Базы данных

Я долго думал. Скорее нет. Не подходят. В тех БД что я знаю нет никаких механизмов
для оптимизации решения данной задачи. Тут главный смысл - алгоритм поиска подстроки
(возможно нечеткого) и способность задачи очень быстро себя распараллелить по вычислительным
узлам (не 4-8 как в кластере БД) а хотя бы в узлов 100 - 1000. Вобщем как в этих ваших амазонах.

Использовать БД просто как сторедж для данной задачи - скорее ДА. Можно. Но это будет
такой-себе юзкейс. Не лучше чем файловая система. Тразнакции не нужны.

Но есть и хорошие поинты.

- Все данные Read/Only.
- Идеально паралеллятся для машин с раздельной памятью.(Много процессов на одной машине - скорее всего плохо т.к. просядет канал памяти.)
- Удобно запускать в Hadoop/Spark, возможно ApacheStorm (надо подумать).

...

Рейтинг:

0 / 0

26.06.2018, 12:35

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39665971

Никанор Кузьмич

Участник

Откуда: Москва

Сообщения: 451

Рейтинг: 0 / 0

maytonНикаких лексем и токенов нет.Эээ, немножко есть. 3 основания (кодон) кодируют одну аминокислоту. Плюс есть специальный кодон, означающий "конец строки гена". Кстати, аминокислот порядка 20, а вариантов кодонов - 64 (помню только на школьном уровне, там небось как обычно 100500 нюансов у разных организмов), то есть разные куски ДНК могут кодировать идентичные белки. В поиске наверняка понадобится искать что-нибудь вроде "все гены, кодирующие такую-то аминокислотную последовательность".

...

Рейтинг:

0 / 0

26.06.2018, 13:11

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39665987

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Никанор КузьмичmaytonНикаких лексем и токенов нет.Эээ, немножко есть. 3 основания (кодон) кодируют одну аминокислоту. Плюс есть специальный кодон, означающий "конец строки гена". Кстати, аминокислот порядка 20, а вариантов кодонов - 64 (помню только на школьном уровне, там небось как обычно 100500 нюансов у разных организмов), то есть разные куски ДНК могут кодировать идентичные белки. В поиске наверняка понадобится искать что-нибудь вроде "все гены, кодирующие такую-то аминокислотную последовательность".

Кузьмич. Это всё безумно интересно! Кодоны всякие там шмодоны.
Но постановка усложняется а мы никуда не двинулись.
Каждая ваша фраза требует расшифровки с примерами.

Нам не нужна идеальна и общая постановка. Мы с ней никуда не уедем. Или сменим работу и пойдем в биологи.
Нам нужно средненькое причёсанное It-шное ТЗ в терминах нам понятных. Строки. Поиск. Хранилище. Отчет. И требования по времени. Ну там... больше года ждать никто не будет. Ну и интерфейс. Как оно вообще должно выглядеть с точки
зрения юзера.

Пожалуйста ответьте на следующее.

1) Сколько всего аминокислот? Сколько брать букв алвавита?
2) Какова типичная длина генома для данной задачи. (В начале прозвучало что-то до 3 миллионов символов.)
3) Что надо искать? "все гены, кодирующие такую-то аминокислотную последовательность". Здесь-бы нужен
пример. Какой длины эта последовательность (в среднем).
4) Будем искать много и часто в одном геноме? Или одноразово во многих? Это ключевой момент в алгоримах и индексах.
5) Зачем нечеткий поиск? Что это? Как выглядит результат нечеткого матчинга? Как близко мы должны
быть в этой нечеткости? 50% ? 80% ?
6) Визуальный аппарат. Как вы (биологи) видите данные? Вряд-ли 3 миллона символов вам информативны.
Возможно есть какой-то стандарт на отображение. Спектр там.... Цветные матрицы. Или какой-то усредненный
грубый набор символов.

...

Рейтинг:

0 / 0

26.06.2018, 13:33

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39666017

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

mayton5) Зачем нечеткий поиск? Что это? Как выглядит результат нечеткого матчинга? Как близко мы
должны быть в этой нечеткости? 50% ? 80% ?

Чтобы искать похожие геномы. И выводить релевантность.
То есть в базе есть "AAACCDDDDE", и оно должно найтись на поиск "AABCCDDEDE".
Я так это понимаю.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

26.06.2018, 14:03

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39666059

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Dimitry Sibiryakovmayton5) Зачем нечеткий поиск? Что это? Как выглядит результат нечеткого матчинга? Как близко мы
должны быть в этой нечеткости? 50% ? 80% ?

Чтобы искать похожие геномы. И выводить релевантность.
То есть в базе есть "AAACCDDDDE", и оно должно найтись на поиск "AABCCDDEDE".
Я так это понимаю.

Левенштейн катит? Ну тоесть если я взял 1 аминокислоту удалил.

Код: sql

AAA(C)CDDDDE -> AAACDDDDE

Это будет та-же близость что и в первом варианте? Или вообще не близко?

...

Рейтинг:

0 / 0

26.06.2018, 14:48

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39666254

Jan Kowalski-Smith

Участник

Сообщения: 23

Рейтинг: 0 / 0

Может Genomics?
https://azure.microsoft.com/en-us/services/genomics/

...

Рейтинг:

0 / 0

27.06.2018, 00:39

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39671006

skyANA

Участник

Откуда: Зеленоград

Сообщения: 22 795

Рейтинг: 0 / 0

rigor mortis,

Genomics England uses MongoDB to Power the Data Science Behind the 100,000 Genomes Project

...

Рейтинг:

0 / 0

07.07.2018, 14:18

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39687777

Lepsik

Участник

Откуда: glubinka

Сообщения: 4 167

Рейтинг: 0 / 0

наберите отдельную таблицу с цепочками по 32 аминокислоты.
само днк будет набиратся из ссылок на эту таблицу.

Дальше поиск будет заметно быстрее

...

Рейтинг:

0 / 0

14.08.2018, 23:19

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39710384

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

делайте это максимально плохо, чтобы ни у кого не возникло возможности этим пользоваться. вы же тоже человек.

...

Рейтинг:

0 / 0

29.09.2018, 21:06

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39710464

старый пень

Гость

Ваще в БД генома структурированная инфа тоже должна быть, типа классификация организма, область, экзон/ интрон, название гена, если это конкретный ген а не кусок хромосомы, инфа о конкретном носителе (имя фамилия) и тд и тп. Дофига, я помни полей 15 было.

И ваще много вариаций. В РНК есть U, у разных зверей разные аминокислоты, по уму это всё в БД тоже запихивать надо.

насчет ридонди... вдруг автор сам гены читает?

Главное, зачем что-то изобретать? Давно есть готовые решения. Уже лет 20 назад, когда эти БД распростанялись на лазерных дисках, были описаны форматы хранения, предоставлялись библиотеки для доступа, КМК ковыряться с большими СУБД в этом деле смысла вообще нет.

...

Рейтинг:

0 / 0

30.09.2018, 09:36

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39711089

ну я

Участник

Откуда: Москва

Сообщения: 1 270

Рейтинг: 0 / 0

rigor mortis- в геноме должна быть возможность поиска определённой последовательности по 40-60% совпадений (искомая последовательность до
2000 бит)
Неточное совпадение - это с удалением или с заменой вхождения? И каких длин и на какие?

...

Рейтинг:

0 / 0

01.10.2018, 17:06

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39711133

ну я

Участник

Откуда: Москва

Сообщения: 1 270

Рейтинг: 0 / 0

Код: plaintext

1.
2.
3.
4.
5.

// Мышь саблезубая.
string s1 = "ACTGACTGAAAACCCCTTTGGG......"; 

// Ищем в этой мыши 3 цитозина подряд. 
string s2 = "CCC";

Индексируем позиции одного символа, двух символов, трех символов, и т.д., сколько не жалко.

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.

^GI("Mouse sable","A")=1
^GI("Mouse sable","A")=5
^GI("Mouse sable","A")=6
...
^GI("Mouse sable","AC")=1
^GI("Mouse sable","AC")=5
^GI("Mouse sable","AC")=12
...

После чего запрашиваем позиции где есть "C" после которого идет "C", после которого идет ....
И найти такую последовательность этих позиций, расстояние между которыми меньше чем... ну и в нужном порядке следования.
Как на sql сделать - не знаю, а на М это но проблем, там любые индексы можно сделать.

...

Рейтинг:

0 / 0

01.10.2018, 17:52

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39713406

старый пень

Гость

ну я,

с индексами КМК не сильно катит.

Предположим, есть последовательность из 2000 знаков, где первые 500 почти не совпадают, зато дальше почти совпадают так, что общий критерий 40% выполняется влегкую. Боюсь представить, сколько будет знанимать индекс на все возможные слова длиной 500 символов, и, главное, он все равно не поможет.

...

Рейтинг:

0 / 0

05.10.2018, 10:45

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39713458

ну я

Участник

Откуда: Москва

Сообщения: 1 270

Рейтинг: 0 / 0

старый пеньну я,

с индексами КМК не сильно катит.

Предположим, есть последовательность из 2000 знаков, где первые 500 почти не совпадают, зато дальше почти совпадают так, что общий критерий 40% выполняется влегкую. Боюсь представить, сколько будет знанимать индекс на все возможные слова длиной 500 символов, и, главное, он все равно не поможет.
На всевозможные не нужно, нужно на сколько не жалко. Последовательность в 500 элементов проверяется как 100 последовательностей в 5 элементов.

"и, главное, он все равно не поможет" - давненько я не встречал таких сильных аргументаций ))))
Хотя у женщин попадался еще более сильный - "бе-бе-бе"

...

Рейтинг:

0 / 0

05.10.2018, 11:58

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39713522

старый пень

Гость

ну яПоследовательность в 500 элементов проверяется как 100 последовательностей в 5 элементов.
Забавный бред. А если совпадающий кусок начинатется с 99 позиции? Достаточно рамку на 1 букву сдвинуть и надо всё искать заново. В том то и дело, что если надо достичь предела точности в 40%, то, что б воспользоваться индексом, всё равно придется сравнивать начиная со ВСЕХ позиций из начала сравнимаего куска длиной почти 40%.

Даже для слов по 100 нуклеотидов, с учетом того, что последовательности могут быть совершенно произвольными, сколько вариатов ожидется, 4^100 , если не ошибаюсь?

Это очень нетривиальные задачи, а не словарь русского языка длиной всего в 20000 слов, где длина слова редко превосходит 16 букв. Я в прошлой жизни занимался поиском экзонов, используя марковсие цепи, там стартовые якоря были длиной всего в 3 нуклеотида, и все равно неделями шуршало, что б статистику набрать (правда на 486м).

...

Рейтинг:

0 / 0

05.10.2018, 12:47

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39714908

S.G.

Участник

Откуда: cartoon network

Сообщения: 30 700

Рейтинг: 0 / 0

ну я Последовательность в 500 элементов проверяется как 100 последовательностей в 5 элементов.

сильно.

...

Рейтинг:

0 / 0

09.10.2018, 13:50

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39715716

ну я

Участник

Откуда: Москва

Сообщения: 1 270

Рейтинг: 0 / 0

старый пеньА если совпадающий кусок начинатется с 99 позиции? Достаточно рамку на 1 букву сдвинуть и надо всё искать заново. В том то и дело, что если надо достичь предела точности в 40%, то, что б воспользоваться индексом, всё равно придется сравнивать начиная со ВСЕХ позиций из начала сравнимаего куска длиной почти 40%.
Сравниваемый кусок имеет несколько символов (пусть для определенности будет N) в начале? Имеет. По ним можем по индексу взять где они начинаются в индексированной последовательности? Можем. После этих N символов есть еще N других символов? Есть. они должны отстоять от полученных по первым N на N позиций. Можем из первого индекса пропустить те котором это условие не удовлетворяет? Можем. Ну и так далее.

ТАК НАХРЕНА БРАТЬ ВСЕ ПОЗИЦИИ, ЕСЛИ ЕСТЬ ИНДЕКС ПО ПОДСТРОКАМ, ИТИТЬ КОЛОТИТЬ?

...

Рейтинг:

0 / 0

10.10.2018, 18:26

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39716967

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

ну яКак на sql сделать - не знаю, а на М это но проблем, там любые индексы можно сделать.
Мне кажется твоя М-система попрехнется объемом индекса. И еще до того
как получить решение мы получим "unable to extent segment" или как оно там называется.

Если я не прав - то приведи мне пожалуйста хотя-бы приблизительные расчеты размера этого
индекса исходя из базовой постановки (3 миллиона нуклеотидов и 2000 искомых символов).

...

Рейтинг:

0 / 0

12.10.2018, 23:38

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39717710

ну я

Участник

Откуда: Москва

Сообщения: 1 270

Рейтинг: 0 / 0

maytonну яКак на sql сделать - не знаю, а на М это но проблем, там любые индексы можно сделать.
Мне кажется твоя М-система попрехнется объемом индекса. И еще до того
как получить решение мы получим "unable to extent segment" или как оно там называется.

Если я не прав - то приведи мне пожалуйста хотя-бы приблизительные расчеты размера этого
индекса исходя из базовой постановки (3 миллиона нуклеотидов и 2000 искомых символов).
"unable to extent segment" или как оно там называется - это в Oracle называется.

Не поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема.
Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.
Даже для моей реализации М несколько миллионов - это просто штатные тесты на быстродействие,
чтобы работало достаточно долго для засекания времени. Из-за компрессии индексов там на диске может и гига не будет.
Для современных СУБД и дисков это как-бы вообще не объемы, чтобы париться.

Вот если будет миллионы не нуклеотидов в одной ДНК, а миллионы самих ДНК, тут диски могут понадобиться.

Меня же больше интересует, что так тормозит топикстартер с формализацией процента совпадений.
Пока нет постановки что (у него) это такое, толком можно обсуждать лишь строгий поиск, а нестрогий - ну в силу неполноты информации тут можно что угодно в любой момент прикрутить под рубрикой "а мне не подходит".

...

Рейтинг:

0 / 0

15.10.2018, 15:45

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39717735

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

ну яНе поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема.
Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.какой алгоритм используется для реализации индекса?

...

Рейтинг:

0 / 0

15.10.2018, 16:16

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39717745

ну я

Участник

Откуда: Москва

Сообщения: 1 270

Рейтинг: 0 / 0

kealon(Ruslan)ну яНе поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема.
Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.какой алгоритм используется для реализации индекса?
B*

...

Рейтинг:

0 / 0

15.10.2018, 16:36

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39719863

старый пень

Гость

исходный вопрос- длина генома от 500 (некоторые бактерии) до нескольких миллиардов (3200000 у млекопитающих)

Автор в в числе с нулями немного ошибся, хотя озвучил правильно. У человека длина генома 3,289,000,000 оснований. А организмов - много разных, у всех геном разный.

...

Рейтинг:

0 / 0

19.10.2018, 12:27

| Ответить | Цитировать | Написать

56 сообщений из 56, показаны все 3 страниц

все

Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД для хранения генома.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?all=1&fid=35&tid=1552208]:	0ms
get settings:	5ms
get forum list:	8ms
check forum access:	2ms
check topic access:	2ms
track hit:	37ms
get topic data:	5ms
get forum data:	2ms
get page messages:	42ms
get tp. blocked users:	1ms
others:	216ms

total:	320ms