|
|
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
есть 5 мрд. строк, минимальная и максимальная длина которых 10-200 символов нужно разработать алгоритм сжатия/зашифровки этих строк до минимального набора символов с последующей возможностью его дешифрования длина набора символов равна 8 для зашифровки используются символы латинского алфавита (26) в нижнем регистре, а также цифры от 0 до 9 (10) зашифрованная строка может содержать данные параметры в любой возможней комбинации например: строка _________шифр Привет, мир! ___a0x72cqp (26 + 10) 8 =~ 2.8 * 10 12 что дает нам 2 трлн. возможных комбинаций как быть, куда копать? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 00:23 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
Бузелбасесть 5 мрд. строк, минимальная и максимальная длина которых 10-200 символов нужно разработать алгоритм сжатия/зашифровки этих строк до минимального набора символов с последующей возможностью его дешифрования длина набора символов равна 8 для зашифровки используются символы латинского алфавита (26) в нижнем регистре, а также цифры от 0 до 9 (10) зашифрованная строка может содержать данные параметры в любой возможней комбинации например: строка _________шифр Привет, мир! ___a0x72cqp (26 + 10) 8 =~ 2.8 * 10 12 что дает нам 2 трлн. возможных комбинаций как быть, куда копать? Есть такое решение ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 06:42 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
FishHook, зашифрованные строки нужно будет хранить в БД и в виде чего хранить эти строки, в виде zip файлов? можно поподробней пожалуйста возможно надо что-нибудь на подобии хеша, и главное с возможностью быстрой расшифровки ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 13:37 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
Бузелбаскак быть, куда копать? Ты каким-то чудесным образом смешал в кучу архивирование и криптографию. Ты уж определись что тебе нужно. Скрытность информации или экономия пространства. Это две разные постановкии. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 13:54 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
mayton, экономия ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 14:01 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
Ну если из 5 млрд. строк. есть повторяющиеся то можно завести в БД справочник а в основной таблице - хранить ссылки на него. Вот тебе и будет естественная реляционная экономия. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 14:03 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
Бузелбас, Во первых, надо уяснить, что сжатие не всегда возможно. Например, если исходные строки сгенерированы хорошим генератором (псевдо)случайных чисел, сжатие невозможно. Поэтому заранее задаваться размером шифра 8 символов нельзя. Сжатие возможно, например, если есть повторяющиеся подстроки. Проверить это элементарно - просто зазиповать файл и посмотреть, сократился ли его объем. Если не сократился, то еще не все потеряно, но прежде чем советовать дальше, мне надо знать, откуда эти строки берутся. Если сократился, то использовать какую-либо модификацию LZW , наиболее подходящую для вашего набора данных. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 14:26 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
rfq, да нет у него никакого файла. Я вот только что эксперимент провел. Строку "привед мир!" заархивировал с опциями gzip -n. Получил 30 байт архив. Поэтому раздельно архивировать каждую строку таблицы с маленькой длиной - бесполезно. Нужна какая-то кластеризация или группировка строк. А в группированных архивах трудно/накладно/технически осуществлять быстрый поиск других строк. Или ему нужно искать архиваторы оптимизированные на работу со справочником. И еще - толерантные к возможным INSERTS/UPDATES если таковые будут. Иначе вместо экономии получим прирост объёма. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 14:33 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
Бузелбас, набор символов произвольный или ограничен русским алфавитом и знаками припенания? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 16:00 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
eNose, url'ы по моим подсчетам база в 5 млрд. чисто из урлов будет где-то 250Гб ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 17:48 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
Можно посмотреть в сторону префиксных кодов . И деревьев остатков . Правда насчёт имплементаций пока ничего не скажу. Надо искать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 17:54 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
Бузелбас, и что ты с ними делать собираешься? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 18:34 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
Aleksandr SharahovБузелбас, и что ты с ними делать собираешься? поисковую машину собираем ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 18:46 |
|
||
|
Придумать алгоритм (см. внутри)
|
|||
|---|---|---|---|
|
#18+
Бузелбас, это вам древовидную структуру таблицы нужно И к примеру слова начинающиеся с буквы "а" искать в одном сервере. С "б" в втором итд Вторая буква можно судить о базе. О третей по таблице. Если у вас слвоа состоят только из букв, то получим что в каждой таблице И в каждой табличке по сотне слов останеться. Правда есть уже готовые решению, в оракл к примеру. Вот и получаться небольшие таблички у вас. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.01.2012, 19:08 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=37628797&tid=1342492]: |
0ms |
get settings: |
5ms |
get forum list: |
10ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
54ms |
get topic data: |
6ms |
get forum data: |
1ms |
get page messages: |
33ms |
get tp. blocked users: |
1ms |
| others: | 198ms |
| total: | 312ms |

| 0 / 0 |
