powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Big Data??
15 сообщений из 15, страница 1 из 1
Big Data??
    #39393098
gerra
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Кто подскажет, какой инструмент выбрать, чтобы хранить данные большого объема, примерно 100ГГб один набор данных (он структурирован, это табличка шириной 2000-4000 полей, столбики довольно длинные), таких наборов много, сотни, может быть тысячи. Операции требуются самые примитивные - выбрать один столбик из набора или из всех столбиков выбрать определенное количество полей. Все операции идут с одним набором, нужно конечно уметь переключаться с набора на набор. Данные можно выдавать в текстовый файл, еще лучше в виде потока, к которому можно подключиться из Питона или Матлаба. Хорошо бы иметь возможность отдавать команды в эту базу данных из Питона.
...
Рейтинг: 0 / 0
Big Data??
    #39393332
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
я не вижу в ваших требованиях "базы данных", а чтение файлов можно реализовать на Perl или C.
...
Рейтинг: 0 / 0
Big Data??
    #39393399
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушкая не вижу в ваших требованиях "базы данных"gerraХорошо бы иметь возможность отдавать команды в эту базу данных из Питона.
...
Рейтинг: 0 / 0
Big Data??
    #39393458
gerra
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Дедушка, там требования по выборке минимальные, нужно выбрать один набор, из него взять, например, один столбец, или несколько строк, или весь целиком в виде потока. По поводу чтения файлов - они пока хранятся в текстовых файлах, столбец - файл. Итого в среднем 3000 файлов будет на один набор. Была мысль в самом деле сделать сотню папок, и в каждой папке один набор из нескольких тысяч текстовых файлов. Файлы планируется обрабатывать с помощью Питона. Но есть сомнения, что виндоуз будет нормально поддерживать эти процессы и не будет тормозить и путаться. Сделать на Питоне нужную выборку будет очень просто, может быть даже проще, чем в базе данных - взять из принятого массива нужные числа. Но если принят массив в 100ГГб - он будет нормально обрабатываться? Что-то я сомневаюсь. Можно конечно поставить SSD именно для этой цели и устроить на ней своп-файл н 150ГГб, например. Но это все затратные вещи, если бы я точно был уверен, что это будет работать - тогда бы выбил на это деньги. А если нет?
...
Рейтинг: 0 / 0
Big Data??
    #39393576
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gerra, имхо
посмотрите вот это

servit, если ТС написал слова "база данных" это вовсе не означает, что это следует из задачи и имеет отношения действительно к БД (без кавычек).
...
Рейтинг: 0 / 0
Big Data??
    #39393582
gerra
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Дедушка, спасибо, посмотрел. Но сложилось ощущение, что Hadoop это что-то довольно сложное в применение. И если я правильно понял, это данные в облаке, а они у меня и так уже в облаке, будет в итоге что-то вроде комедии Аристофана! Либо я что-то не понял в описании.
Мне по идее нужен просто Эксел на 10-100Тб. Если на Hadoop можно сварганить что-то подобное, тогда да, это то - что нужно.
...
Рейтинг: 0 / 0
Big Data??
    #39393712
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gerraМне по идее нужен просто Эксел на 10-100ТбgerraВсе операции идут с одним набором ... примерно 100Гб один набор данныхт.е. всё таки рабочий набор 100Гб, а то, что у вас вообще все данные 100Тб это дело уже другое.
При этом, насколько я понял, все эти 100Гб не нужны для обработки (вы из них читаете только некое подмножество)?
Если это так, то задача сводится к "прочитать из 100Гб файла 1Гб(например) данных и что-то с ними сделать"?
...
Рейтинг: 0 / 0
Big Data??
    #39393943
chernolyas
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Попробуй Hbase + Phoenix. Дальше вопрос к железу
...
Рейтинг: 0 / 0
Big Data??
    #39393944
gerra
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Дедушка, да именно так. Для отладки длительное время будет требоваться именно выборка, вначале просто столбец из этих 100ГГб, то есть 30-40Мб. Потом будет нужна вся выборка целиком, но так как скорее всего не получится ее всю загрузить в Питон, то нужно будет считывать куски например по 1000 строк или еще лучше, если удастся организовать поток данных, чтобы в Питон грузились строка за строкой, желательно с сигналами от Питона - сигнал - строка и так далее. Это было бы идеально. Это как бы удаленный массив (или файл), который можно прочитывать с нужной скоростью. Но чтобы я мог выбрать этот массив (или файл) из большого количества других таких же.
...
Рейтинг: 0 / 0
Big Data??
    #39394173
gerra
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
chernolyas, а что такое Phoenix? я нашел только OS на основе Android - но видимо что-то другое имелось в виду?
По поводу Hbase - похоже, на то, что нужно. Если сравнить с NoSQL -которая из них проще в установке и настройке
под задачу (имеется в виду предельно примитивная по сути выполняемых операций, как у меня)?
...
Рейтинг: 0 / 0
Big Data??
    #39394562
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gerra,

повторюсь, имхо, не нужна вам никакая база данных.
файлы в файловом хранилище, чтение из файла (построчно или как вам нужно) и обработка.
вы не первый кто обрабатывает большие файлы питоном (довольно много народу занимается наукой) и все давно изобретено.
...
Рейтинг: 0 / 0
Big Data??
    #39394901
gerra
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Дедушка, то есть просто открываю несколько сот папок, в каждой в среднем 3000 файлов. При обработке открываю одновременно все файлы в выбранной папке и понемногу считываю данные в Питон, по мере необходимости? Мне такой вариант нравится и полностью устраивает, просто опасался, что он не откроет столько файлов и будут тормоза непредвиденные.
...
Рейтинг: 0 / 0
Big Data??
    #39394933
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gerra,

а зачем открывать все? открывайте только то, что нужно в данный момент для чтения.
(ну или как вариант, написать утилиту которая будет "готовить" ваши файлы - объединять все файлы одного набора в один файл 100Гб)
...
Рейтинг: 0 / 0
Big Data??
    #39403943
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
gerraДедушка, спасибо, посмотрел. Но сложилось ощущение, что Hadoop это что-то довольно сложное в применение. И .

ощущение правильное, но немного приуменьшенное...
...
Рейтинг: 0 / 0
Big Data??
    #39405266
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кликхаус уже предлагали?
...
Рейтинг: 0 / 0
15 сообщений из 15, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Big Data??
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]