|
СУБД для хранения генома.
|
|||
---|---|---|---|
#18+
старый пеньА если совпадающий кусок начинатется с 99 позиции? Достаточно рамку на 1 букву сдвинуть и надо всё искать заново. В том то и дело, что если надо достичь предела точности в 40%, то, что б воспользоваться индексом, всё равно придется сравнивать начиная со ВСЕХ позиций из начала сравнимаего куска длиной почти 40%. Сравниваемый кусок имеет несколько символов (пусть для определенности будет N) в начале? Имеет. По ним можем по индексу взять где они начинаются в индексированной последовательности? Можем. После этих N символов есть еще N других символов? Есть. они должны отстоять от полученных по первым N на N позиций. Можем из первого индекса пропустить те котором это условие не удовлетворяет? Можем. Ну и так далее. ТАК НАХРЕНА БРАТЬ ВСЕ ПОЗИЦИИ, ЕСЛИ ЕСТЬ ИНДЕКС ПО ПОДСТРОКАМ, ИТИТЬ КОЛОТИТЬ? ... |
|||
:
Нравится:
Не нравится:
|
|||
10.10.2018, 18:26 |
|
СУБД для хранения генома.
|
|||
---|---|---|---|
#18+
ну яКак на sql сделать - не знаю, а на М это но проблем, там любые индексы можно сделать. Мне кажется твоя М-система попрехнется объемом индекса. И еще до того как получить решение мы получим "unable to extent segment" или как оно там называется. Если я не прав - то приведи мне пожалуйста хотя-бы приблизительные расчеты размера этого индекса исходя из базовой постановки (3 миллиона нуклеотидов и 2000 искомых символов). ... |
|||
:
Нравится:
Не нравится:
|
|||
12.10.2018, 23:38 |
|
СУБД для хранения генома.
|
|||
---|---|---|---|
#18+
maytonну яКак на sql сделать - не знаю, а на М это но проблем, там любые индексы можно сделать. Мне кажется твоя М-система попрехнется объемом индекса. И еще до того как получить решение мы получим "unable to extent segment" или как оно там называется. Если я не прав - то приведи мне пожалуйста хотя-бы приблизительные расчеты размера этого индекса исходя из базовой постановки (3 миллиона нуклеотидов и 2000 искомых символов). "unable to extent segment" или как оно там называется - это в Oracle называется. Не поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема. Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК. Даже для моей реализации М несколько миллионов - это просто штатные тесты на быстродействие, чтобы работало достаточно долго для засекания времени. Из-за компрессии индексов там на диске может и гига не будет. Для современных СУБД и дисков это как-бы вообще не объемы, чтобы париться. Вот если будет миллионы не нуклеотидов в одной ДНК, а миллионы самих ДНК, тут диски могут понадобиться. Меня же больше интересует, что так тормозит топикстартер с формализацией процента совпадений. Пока нет постановки что (у него) это такое, толком можно обсуждать лишь строгий поиск, а нестрогий - ну в силу неполноты информации тут можно что угодно в любой момент прикрутить под рубрикой "а мне не подходит". ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 15:45 |
|
СУБД для хранения генома.
|
|||
---|---|---|---|
#18+
ну яНе поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема. Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.какой алгоритм используется для реализации индекса? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 16:16 |
|
СУБД для хранения генома.
|
|||
---|---|---|---|
#18+
kealon(Ruslan)ну яНе поперхнется. Ни моя, ни какая другая промышленная. С чего? Это не SQL, где помирают от объема. Цепочка в 3 миллиона нуклеотидов при индексации по N символов в подстроке это 3 миллиона минус эти N записей в индексе на одну ДНК.какой алгоритм используется для реализации индекса? B* ... |
|||
:
Нравится:
Не нравится:
|
|||
15.10.2018, 16:36 |
|
СУБД для хранения генома.
|
|||
---|---|---|---|
#18+
исходный вопрос- длина генома от 500 (некоторые бактерии) до нескольких миллиардов (3200000 у млекопитающих) Автор в в числе с нулями немного ошибся, хотя озвучил правильно. У человека длина генома 3,289,000,000 оснований. А организмов - много разных, у всех геном разный. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.10.2018, 12:27 |
|
|
start [/forum/topic.php?fid=35&gotonew=1&tid=1552208]: |
0ms |
get settings: |
11ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
51ms |
get topic data: |
10ms |
get first new msg: |
7ms |
get forum data: |
3ms |
get page messages: |
52ms |
get tp. blocked users: |
2ms |
others: | 244ms |
total: | 401ms |
0 / 0 |