СУБД для хранения генома. / Сравнение СУБД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД для хранения генома.

6 сообщений из 56, страница 3 из 3

все

СУБД для хранения генома.

#39715716

ну я

Участник

Откуда: Москва

Сообщения: 1 270

Рейтинг: 0 / 0

старый пеньА если совпадающий кусок начинатется с 99 позиции? Достаточно рамку на 1 букву сдвинуть и надо всё искать заново. В том то и дело, что если надо достичь предела точности в 40%, то, что б воспользоваться индексом, всё равно придется сравнивать начиная со ВСЕХ позиций из начала сравнимаего куска длиной почти 40%.
Сравниваемый кусок имеет несколько символов (пусть для определенности будет N) в начале? Имеет. По ним можем по индексу взять где они начинаются в индексированной последовательности? Можем. После этих N символов есть еще N других символов? Есть. они должны отстоять от полученных по первым N на N позиций. Можем из первого индекса пропустить те котором это условие не удовлетворяет? Можем. Ну и так далее.

ТАК НАХРЕНА БРАТЬ ВСЕ ПОЗИЦИИ, ЕСЛИ ЕСТЬ ИНДЕКС ПО ПОДСТРОКАМ, ИТИТЬ КОЛОТИТЬ?

...

Рейтинг:

0 / 0

10.10.2018, 18:26

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39716967

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

ну яКак на sql сделать - не знаю, а на М это но проблем, там любые индексы можно сделать.
Мне кажется твоя М-система попрехнется объемом индекса. И еще до того
как получить решение мы получим "unable to extent segment" или как оно там называется.

Если я не прав - то приведи мне пожалуйста хотя-бы приблизительные расчеты размера этого
индекса исходя из базовой постановки (3 миллиона нуклеотидов и 2000 искомых символов).

...

Рейтинг:

0 / 0

12.10.2018, 23:38

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39717710

ну я

Участник

Откуда: Москва

Сообщения: 1 270

Рейтинг: 0 / 0

maytonну яКак на sql сделать - не знаю, а на М это но проблем, там любые индексы можно сделать.
Мне кажется твоя М-система попрехнется объемом индекса. И еще до того
как получить решение мы получим "unable to extent segment" или как оно там называется.

Если я не прав - то приведи мне пожалуйста хотя-бы приблизительные расчеты размера этого
индекса исходя из базовой постановки (3 миллиона нуклеотидов и 2000 искомых символов).
"unable to extent segment" или как оно там называется - это в Oracle называется.

Не поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема.
Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.
Даже для моей реализации М несколько миллионов - это просто штатные тесты на быстродействие,
чтобы работало достаточно долго для засекания времени. Из-за компрессии индексов там на диске может и гига не будет.
Для современных СУБД и дисков это как-бы вообще не объемы, чтобы париться.

Вот если будет миллионы не нуклеотидов в одной ДНК, а миллионы самих ДНК, тут диски могут понадобиться.

Меня же больше интересует, что так тормозит топикстартер с формализацией процента совпадений.
Пока нет постановки что (у него) это такое, толком можно обсуждать лишь строгий поиск, а нестрогий - ну в силу неполноты информации тут можно что угодно в любой момент прикрутить под рубрикой "а мне не подходит".

...

Рейтинг:

0 / 0

15.10.2018, 15:45

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39717735

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

ну яНе поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема.
Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.какой алгоритм используется для реализации индекса?

...

Рейтинг:

0 / 0

15.10.2018, 16:16

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39717745

ну я

Участник

Откуда: Москва

Сообщения: 1 270

Рейтинг: 0 / 0

kealon(Ruslan)ну яНе поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема.
Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.какой алгоритм используется для реализации индекса?
B*

...

Рейтинг:

0 / 0

15.10.2018, 16:36

| Ответить | Цитировать | Написать

СУБД для хранения генома.

#39719863

старый пень

Гость

исходный вопрос- длина генома от 500 (некоторые бактерии) до нескольких миллиардов (3200000 у млекопитающих)

Автор в в числе с нулями немного ошибся, хотя озвучил правильно. У человека длина генома 3,289,000,000 оснований. А организмов - много разных, у всех геном разный.

...

Рейтинг:

0 / 0

19.10.2018, 12:27

| Ответить | Цитировать | Написать

6 сообщений из 56, страница 3 из 3

все

Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД для хранения генома.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=35&gotonew=1&tid=1552208]:	0ms
get settings:	10ms
get forum list:	15ms
check forum access:	3ms
check topic access:	3ms
track hit:	48ms
get topic data:	11ms
get first new msg:	7ms
get forum data:	3ms
get page messages:	53ms
get tp. blocked users:	2ms
others:	216ms

total:	371ms