|
Big Data??
|
|||
---|---|---|---|
#18+
Кто подскажет, какой инструмент выбрать, чтобы хранить данные большого объема, примерно 100ГГб один набор данных (он структурирован, это табличка шириной 2000-4000 полей, столбики довольно длинные), таких наборов много, сотни, может быть тысячи. Операции требуются самые примитивные - выбрать один столбик из набора или из всех столбиков выбрать определенное количество полей. Все операции идут с одним набором, нужно конечно уметь переключаться с набора на набор. Данные можно выдавать в текстовый файл, еще лучше в виде потока, к которому можно подключиться из Питона или Матлаба. Хорошо бы иметь возможность отдавать команды в эту базу данных из Питона. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2017, 14:45 |
|
Big Data??
|
|||
---|---|---|---|
#18+
я не вижу в ваших требованиях "базы данных", а чтение файлов можно реализовать на Perl или C. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2017, 17:25 |
|
Big Data??
|
|||
---|---|---|---|
#18+
Дедушкая не вижу в ваших требованиях "базы данных"gerraХорошо бы иметь возможность отдавать команды в эту базу данных из Питона. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2017, 18:29 |
|
Big Data??
|
|||
---|---|---|---|
#18+
Дедушка, там требования по выборке минимальные, нужно выбрать один набор, из него взять, например, один столбец, или несколько строк, или весь целиком в виде потока. По поводу чтения файлов - они пока хранятся в текстовых файлах, столбец - файл. Итого в среднем 3000 файлов будет на один набор. Была мысль в самом деле сделать сотню папок, и в каждой папке один набор из нескольких тысяч текстовых файлов. Файлы планируется обрабатывать с помощью Питона. Но есть сомнения, что виндоуз будет нормально поддерживать эти процессы и не будет тормозить и путаться. Сделать на Питоне нужную выборку будет очень просто, может быть даже проще, чем в базе данных - взять из принятого массива нужные числа. Но если принят массив в 100ГГб - он будет нормально обрабатываться? Что-то я сомневаюсь. Можно конечно поставить SSD именно для этой цели и устроить на ней своп-файл н 150ГГб, например. Но это все затратные вещи, если бы я точно был уверен, что это будет работать - тогда бы выбил на это деньги. А если нет? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2017, 20:32 |
|
Big Data??
|
|||
---|---|---|---|
#18+
gerra, имхо посмотрите вот это servit, если ТС написал слова "база данных" это вовсе не означает, что это следует из задачи и имеет отношения действительно к БД (без кавычек). ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2017, 23:24 |
|
Big Data??
|
|||
---|---|---|---|
#18+
Дедушка, спасибо, посмотрел. Но сложилось ощущение, что Hadoop это что-то довольно сложное в применение. И если я правильно понял, это данные в облаке, а они у меня и так уже в облаке, будет в итоге что-то вроде комедии Аристофана! Либо я что-то не понял в описании. Мне по идее нужен просто Эксел на 10-100Тб. Если на Hadoop можно сварганить что-то подобное, тогда да, это то - что нужно. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2017, 00:20 |
|
Big Data??
|
|||
---|---|---|---|
#18+
gerraМне по идее нужен просто Эксел на 10-100ТбgerraВсе операции идут с одним набором ... примерно 100Гб один набор данныхт.е. всё таки рабочий набор 100Гб, а то, что у вас вообще все данные 100Тб это дело уже другое. При этом, насколько я понял, все эти 100Гб не нужны для обработки (вы из них читаете только некое подмножество)? Если это так, то задача сводится к "прочитать из 100Гб файла 1Гб(например) данных и что-то с ними сделать"? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2017, 13:06 |
|
Big Data??
|
|||
---|---|---|---|
#18+
Попробуй Hbase + Phoenix. Дальше вопрос к железу ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2017, 09:12 |
|
Big Data??
|
|||
---|---|---|---|
#18+
Дедушка, да именно так. Для отладки длительное время будет требоваться именно выборка, вначале просто столбец из этих 100ГГб, то есть 30-40Мб. Потом будет нужна вся выборка целиком, но так как скорее всего не получится ее всю загрузить в Питон, то нужно будет считывать куски например по 1000 строк или еще лучше, если удастся организовать поток данных, чтобы в Питон грузились строка за строкой, желательно с сигналами от Питона - сигнал - строка и так далее. Это было бы идеально. Это как бы удаленный массив (или файл), который можно прочитывать с нужной скоростью. Но чтобы я мог выбрать этот массив (или файл) из большого количества других таких же. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2017, 09:15 |
|
Big Data??
|
|||
---|---|---|---|
#18+
chernolyas, а что такое Phoenix? я нашел только OS на основе Android - но видимо что-то другое имелось в виду? По поводу Hbase - похоже, на то, что нужно. Если сравнить с NoSQL -которая из них проще в установке и настройке под задачу (имеется в виду предельно примитивная по сути выполняемых операций, как у меня)? ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2017, 19:41 |
|
Big Data??
|
|||
---|---|---|---|
#18+
gerra, повторюсь, имхо, не нужна вам никакая база данных. файлы в файловом хранилище, чтение из файла (построчно или как вам нужно) и обработка. вы не первый кто обрабатывает большие файлы питоном (довольно много народу занимается наукой) и все давно изобретено. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.01.2017, 13:07 |
|
Big Data??
|
|||
---|---|---|---|
#18+
Дедушка, то есть просто открываю несколько сот папок, в каждой в среднем 3000 файлов. При обработке открываю одновременно все файлы в выбранной папке и понемногу считываю данные в Питон, по мере необходимости? Мне такой вариант нравится и полностью устраивает, просто опасался, что он не откроет столько файлов и будут тормоза непредвиденные. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.01.2017, 17:22 |
|
Big Data??
|
|||
---|---|---|---|
#18+
gerra, а зачем открывать все? открывайте только то, что нужно в данный момент для чтения. (ну или как вариант, написать утилиту которая будет "готовить" ваши файлы - объединять все файлы одного набора в один файл 100Гб) ... |
|||
:
Нравится:
Не нравится:
|
|||
30.01.2017, 18:02 |
|
|
start [/forum/topic.php?fid=48&msg=39393332&tid=1856707]: |
0ms |
get settings: |
11ms |
get forum list: |
15ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
29ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
55ms |
get tp. blocked users: |
1ms |
others: | 235ms |
total: | 365ms |
0 / 0 |