|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
Коллеги... Есть Kafka, куда множество продюсеров отправляют данные (JSON, а также бинарные данные). Все это дело, я так понимаю, и называется Big Data. Все эти данные нужно складывать в какое хранилище. И еще - JSON-овские данные нужно класть в PostgreSQL. Вопрос - какие BigData-компоненты мне для этого нужны? P.S. Только-только начинаю въезжать в тему больших данных, так что не пинайте сильно! ... |
|||
:
Нравится:
Не нравится:
|
|||
09.08.2020, 23:22 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
Big17 Коллеги... Есть Kafka, куда множество продюсеров отправляют данные (JSON, а также бинарные данные). Все это дело, я так понимаю, и называется Big Data. Все эти данные нужно складывать в какое хранилище. И еще - JSON-овские данные нужно класть в PostgreSQL. Вопрос - какие BigData-компоненты мне для этого нужны? P.S. Только-только начинаю въезжать в тему больших данных, так что не пинайте сильно! самый попсовый вариант - spark streaming читает кафку, пишет на hdfs в формате parquet + json в postgres. правда не уверен что jdbc коннектор спарка умеет с json полями postgres работать ... |
|||
:
Нравится:
Не нравится:
|
|||
10.08.2020, 10:48 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
H5N1 самый попсовый вариант - spark streaming читает кафку, пишет на hdfs в формате parquet + json в postgres Так, вот не очень понял. SaprkStreaming пишет в HDFS - ок. А как вытащить данные из HDFS? Hive? (пока не трогаю PostgreSQL, чтобы не запутаться). Т.е. как работать с данными которые сваливаются в HDFS... ... |
|||
:
Нравится:
Не нравится:
|
|||
10.08.2020, 12:01 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
Big17 Так, вот не очень понял. SaprkStreaming пишет в HDFS - ок. А как вытащить данные из HDFS? Hive? (пока не трогаю PostgreSQL, чтобы не запутаться). Т.е. как работать с данными которые сваливаются в HDFS... вариантов дофига, надо больше инфы по задаче и что у вас уже есть, с чем у вас опыт. Варианты: 1) Hive + Tez / Hive + Spark, если будете дистр хадупа ставить, оно из коробки будет 2) Thrift server + Spark, в папке спарка есть start-thriftserver.sh - может быть это самый простой вариант для начала. когда я пробовал все просто было https://habr.com/ru/post/421021/ 3) если есть Oracle или Vertica то они умеют делать external tables на parquet в HDFS. 4) у дистрибутива Cloudera есть Impala, она быстра, но капризна. без опыта не стоит браться ... |
|||
:
Нравится:
Не нравится:
|
|||
10.08.2020, 13:05 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
H5N1 вариантов дофига, надо больше инфы по задаче и что у вас уже есть, с чем у вас опыт В больших данных опыта мало, в классических хранилищах - много. Попробую описать задачу: Есть множество источников данных, часть из них - это всякие технологические системы (целый зоопарк), которые отправляют данные в формате JSON в Kafka. А другая часть - это технологические видеофайлы (которые в дальнейшем планируется обрабатывать автоматизированно, типа "машинного зрения"). Их уже много и объем большой. JSON данных будет не очень много (в смысле они не полетят в реальном времени) и объем их небольшой. В конечном итоге они должны оказаться в PostgreSQL-хранилище данных. Весь этот объем данных хочется где-то хранить, чтобы (когда-нибудь) их анализировать. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.08.2020, 14:59 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
Big17, выглядит что не будет тучи пользователей, желающих пускать SQL и получать ответ прямо через пару секунд. тогда Spark SQL вполне подойдет. по видеофайлам я когда-то игрался c opencv на hadoop - видеофайл раскладывался на картинки и в параллель map-reduce джобом скармливал картинки opencv. модель глаза была обучена находить. работало не очень, фары грузовиков тоже за глаза принимала :) сейчас наверно такое лучше спарком делать. сейчас мутное время, Cloudera купила Hortonworks и закрыла новые дистрибутивы. получается что если на перспективу то надо самому собирать Hadoop. я бы поставил бы ванильный Hadoop и прикрутил бы Ambari админку, apache Zeppeline. с этого Zeppeline SQL запросы тоже можно пускать в Spark. но не уверен как оно без Hive на тему разграничения прав работает. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.08.2020, 16:59 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
H5N1 самый попсовый вариант - spark streaming читает кафку, пишет на hdfs в формате parquet + json в postgres. правда не уверен что jdbc коннектор спарка умеет с json полями postgres работать Пробовать надо. У меня был опыт, когда DBI driver отказался пенделить массивы в поле Постгреса. Поплюхался и сделал по другому. Кст. по Sparkу подскажите. Сейчас многие, когда оптимизируют тормоза Питона в Спарке, переходят на Scala. При полном игноре R. В R многопоточное программирование, вставки на С и оптимизация стали уже нормой, в отличии от Python, где это делается изредка, обычно на коленке. Вы не в курсе, в чем причина ? ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 11:06 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
Big17 А другая часть - это технологические видеофайлы (которые в дальнейшем планируется обрабатывать автоматизированно, типа "машинного зрения"). Их уже много и объем большой. Какую аналитику думаете извлекать из видео ? ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 11:11 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
7rt Кст. по Sparkу подскажите. Сейчас многие, когда оптимизируют тормоза Питона в Спарке, переходят на Scala. При полном игноре R. В R многопоточное программирование, вставки на С и оптимизация стали уже нормой, в отличии от Python, где это делается изредка, обычно на коленке. Вы не в курсе, в чем причина ? из-за масштабирования наверно. разве R умеет в кластерной среде работать ? мне кажется программа на R на одной машине выполняться умеет, а спарк почти как взрослая субд. подготовит план, раскидает расчеты по узлам кластера, соберет результат в едином месте. а в спарке что питон, что R, сбоку приделаны. остается java или scala ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 12:02 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
[quot H5N1#22180792] 7rt из-за масштабирования наверно. разве R умеет в кластерной среде работать ? мне кажется программа на R на одной машине выполняться умеет Да, через Spark. Я имел ввиду возможность использовать более одного потока на каждой ноде. При однопоточном программировании, Spark растиражирует выполнение куска кода на 20 нод, но в каждой будет задействовано 1 ядро. К примеру в каждой ноде по 16 ядер. Многопоточный вариант даст возможность использовать 20 * 15 ядер. + к этому подключать оптимизированные библиотеки. А так, конечно масштабируется не самостоятельно, для этого и используют Spark. Но вариант, что коннект через родную Scala более проработан, я вполне допускаю, надо смотреть, бенчмарить. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 12:32 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
7rt А так, конечно масштабируется не самостоятельно, для этого и используют Spark. а через спарк R получает заметный пенальти, т.к. в отличие от скалы выполняется за пределами jvm. спарк вычитывает файлик, стрит объекты в jvm, если скала работает уже с этими объектами, то для R их нужно засерилизовать и предеать R программе, которая будет тратить память и процессор на дессириализацию. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 14:22 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
7rt Какую аналитику думаете извлекать из видео ? Интенсивность транспортного потока (без распознавания номеров), факт движения. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 16:35 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
H5N1 а через спарк R получает заметный пенальти, т.к. в отличие от скалы выполняется за пределами jvm. спарк вычитывает файлик, стрит объекты в jvm, если скала работает уже с этими объектами, то для R их нужно засерилизовать и предеать R программе, которая будет тратить память и процессор на дессириализацию. Вот тут скорее всего вы правы. Надо разбираться с сериализацией. Через javа R работает тяжеловато. Хотя я считал, что сериализация влияет при I/O на HDD. Не подскажите, где почитать про сериализацию in_memory ? Значит придется изучать Scala. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 21:19 |
|
Есть Kafka, как и где хранить данные?
|
|||
---|---|---|---|
#18+
... |
|||
:
Нравится:
Не нравится:
|
|||
12.08.2020, 08:54 |
|
|
start [/forum/topic.php?fid=48&fpage=2&tid=1856559]: |
0ms |
get settings: |
11ms |
get forum list: |
14ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
33ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
49ms |
get tp. blocked users: |
1ms |
others: | 13ms |
total: | 141ms |
0 / 0 |