В каких объектах сохранить данные в файлах из С++ программы, чтобы быстро читать в Python? / PHP, Perl, Python

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / В каких объектах сохранить данные в файлах из С++ программы, чтобы быстро читать в Python?

7 сообщений из 7, страница 1 из 1

В каких объектах сохранить данные в файлах из С++ программы, чтобы быстро читать в Python?

#40004771

SeriyVolk

Гость

Есть у меня очень большие данные, которые скорее всего прочитать в Python будет невозможно (>100 ГБ текста). Решил сначала уменьшить этот объем в быстром С++ (скомпоновав данные нужным образом), а потом читать их из Python (и делать анализ этих данных).

Не хочу использовать СУБД, поскольку она замедляет получение данных, поэтому смотрю в сторону двоичных файлов.

В каком виде лучше всего сохранить данные в файлах, если основным критерием является их максимально быстрое чтение из Python (я один раз сформируют эти файлы, а потом тысячу раз буду их читать, вращая так и сяк)?

...

Рейтинг:

0 / 0

02.10.2020, 09:31

| Ответить | Цитировать | Написать

В каких объектах сохранить данные в файлах из С++ программы, чтобы быстро читать в Python?

#40004964

mini.weblab

Участник

Сообщения: 988

Рейтинг: 0 / 0

SeriyVolk,

а посмотрите в сторону Apache Spark, возможно вам Питон даже не будет нужен. Спарк поддерживает АПИ на Scala, Java и Python.
Нативный язык - Скала, но по-большому счету, там без разницы на чем писать, т.к Спарк все конвертируе и оптимизирует под свой внутренний движок. Возможная сложность: создание и подключение своего кластерного хранилища данных, но если машина у вас мощная и многоядерная, то вполне возможно, что все и так заработает и с хорошей скоростью.

...

Рейтинг:

0 / 0

02.10.2020, 17:43

| Ответить | Цитировать | Написать

В каких объектах сохранить данные в файлах из С++ программы, чтобы быстро читать в Python?

#40004983

Алексей Роза 2020

Гость

SeriyVolk

В каком виде лучше всего сохранить данные в файлах, если основным критерием является их максимально быстрое чтение из Python (я один раз сформируют эти файлы, а потом тысячу раз буду их читать, вращая так и сяк)?

множество мелких (относительно) файлов, разложенных по директориям, чтобы не более 1000 файлов на диру
чем больше текста в одном файле, тем меньше придётся обращаться к диску, чтобы их открывать
но при этом надо не потерять гибкость, если там разные файлы по-разному надо компоновать (например они куски одной таблицы, которая может быть собрана по-разному).

...

Рейтинг:

0 / 0

02.10.2020, 18:48

| Ответить | Цитировать | Написать

В каких объектах сохранить данные в файлах из С++ программы, чтобы быстро читать в Python?

#40004990

mini.weblab

Участник

Сообщения: 988

Рейтинг: 0 / 0

Алексей Роза 2020

SeriyVolk

преимущество Spark в том, что он все разбиение/распределение данных по кластерам сделает за вас и, более того, все данные будут обрабатываться in-memory.

...

Рейтинг:

0 / 0

02.10.2020, 19:18

| Ответить | Цитировать | Написать

В каких объектах сохранить данные в файлах из С++ программы, чтобы быстро читать в Python?

#40005000

Алексей Роза 2020

Гость

по каким ещё кластерам? 100гб - это 2% от диска на 5TB
а где он возьмёт >100 гб memory?

...

Рейтинг:

0 / 0

02.10.2020, 19:53

| Ответить | Цитировать | Написать

В каких объектах сохранить данные в файлах из С++ программы, чтобы быстро читать в Python?

#40005037

mini.weblab

Участник

Сообщения: 988

Рейтинг: 0 / 0

Алексей Роза 2020,

по машинам, объединенным в кластер, если выражаться правильно и точно :)
просто я хочу сказать, что под хотелку ТСа уже существует готовый фреймворк для распределенных вычислений на больших объемах данных и это Апач Спарк. Спарк работает по модели master->workers и распределяет нагрузку по машинам кластера, и 100 Гб здесь не проблема. И вообще думаю, что для обработки 100Гб данных можно обойтись одним мощным десктопом.

...

Рейтинг:

0 / 0

02.10.2020, 23:36

| Ответить | Цитировать | Написать

В каких объектах сохранить данные в файлах из С++ программы, чтобы быстро читать в Python?

#40005066

Алексей Роза 2020

Гость

ну а я о чём написал?
ты ему предлагаешь кластер купить чтоли, когда там дел на 2% от средненького диска
лучше уж в БД положить, откуда чем угодно забирать нужные данные и считать конкретно их, а не все разом (так обычно не бывает)

...

Рейтинг:

0 / 0

03.10.2020, 02:36

| Ответить | Цитировать | Написать

7 сообщений из 7, страница 1 из 1

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/search_topic.php?author=%D0%AE%D0%9A%D0%90&author_mode=last_topics&do_search=1]:	0ms
get settings:	9ms
get forum list:	12ms
get settings:	11ms
get forum list:	16ms
check forum access:	4ms
check topic access:	4ms
track hit:	66ms
get topic data:	11ms
get forum data:	3ms
get page messages:	52ms
get tp. blocked users:	2ms
others:	621ms

total:	811ms