powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД для хранения генома.
6 сообщений из 56, страница 3 из 3
СУБД для хранения генома.
    #39715716
Фотография ну я
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
старый пеньА если совпадающий кусок начинатется с 99 позиции? Достаточно рамку на 1 букву сдвинуть и надо всё искать заново. В том то и дело, что если надо достичь предела точности в 40%, то, что б воспользоваться индексом, всё равно придется сравнивать начиная со ВСЕХ позиций из начала сравнимаего куска длиной почти 40%.
Сравниваемый кусок имеет несколько символов (пусть для определенности будет N) в начале? Имеет. По ним можем по индексу взять где они начинаются в индексированной последовательности? Можем. После этих N символов есть еще N других символов? Есть. они должны отстоять от полученных по первым N на N позиций. Можем из первого индекса пропустить те котором это условие не удовлетворяет? Можем. Ну и так далее.

ТАК НАХРЕНА БРАТЬ ВСЕ ПОЗИЦИИ, ЕСЛИ ЕСТЬ ИНДЕКС ПО ПОДСТРОКАМ, ИТИТЬ КОЛОТИТЬ?
...
Рейтинг: 0 / 0
СУБД для хранения генома.
    #39716967
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ну яКак на sql сделать - не знаю, а на М это но проблем, там любые индексы можно сделать.
Мне кажется твоя М-система попрехнется объемом индекса. И еще до того
как получить решение мы получим "unable to extent segment" или как оно там называется.

Если я не прав - то приведи мне пожалуйста хотя-бы приблизительные расчеты размера этого
индекса исходя из базовой постановки (3 миллиона нуклеотидов и 2000 искомых символов).
...
Рейтинг: 0 / 0
СУБД для хранения генома.
    #39717710
Фотография ну я
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonну яКак на sql сделать - не знаю, а на М это но проблем, там любые индексы можно сделать.
Мне кажется твоя М-система попрехнется объемом индекса. И еще до того
как получить решение мы получим "unable to extent segment" или как оно там называется.

Если я не прав - то приведи мне пожалуйста хотя-бы приблизительные расчеты размера этого
индекса исходя из базовой постановки (3 миллиона нуклеотидов и 2000 искомых символов).
"unable to extent segment" или как оно там называется - это в Oracle называется.

Не поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема.
Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.
Даже для моей реализации М несколько миллионов - это просто штатные тесты на быстродействие,
чтобы работало достаточно долго для засекания времени. Из-за компрессии индексов там на диске может и гига не будет.
Для современных СУБД и дисков это как-бы вообще не объемы, чтобы париться.

Вот если будет миллионы не нуклеотидов в одной ДНК, а миллионы самих ДНК, тут диски могут понадобиться.

Меня же больше интересует, что так тормозит топикстартер с формализацией процента совпадений.
Пока нет постановки что (у него) это такое, толком можно обсуждать лишь строгий поиск, а нестрогий - ну в силу неполноты информации тут можно что угодно в любой момент прикрутить под рубрикой "а мне не подходит".
...
Рейтинг: 0 / 0
СУБД для хранения генома.
    #39717735
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ну яНе поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема.
Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.какой алгоритм используется для реализации индекса?
...
Рейтинг: 0 / 0
СУБД для хранения генома.
    #39717745
Фотография ну я
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
kealon(Ruslan)ну яНе поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема.
Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.какой алгоритм используется для реализации индекса?
B*
...
Рейтинг: 0 / 0
СУБД для хранения генома.
    #39719863
исходный вопрос- длина генома от 500 (некоторые бактерии) до нескольких миллиардов (3200000 у млекопитающих)

Автор в в числе с нулями немного ошибся, хотя озвучил правильно. У человека длина генома 3,289,000,000 оснований. А организмов - много разных, у всех геном разный.
...
Рейтинг: 0 / 0
6 сообщений из 56, страница 3 из 3
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / СУБД для хранения генома.
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]