powered by simpleCommunicator - 2.0.53     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Есть Kafka, как и где хранить данные?
15 сообщений из 15, страница 1 из 1
Есть Kafka, как и где хранить данные?
    #39988002
Фотография Big17
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги... Есть Kafka, куда множество продюсеров отправляют данные (JSON, а также бинарные данные).
Все это дело, я так понимаю, и называется Big Data.
Все эти данные нужно складывать в какое хранилище. И еще - JSON-овские данные нужно класть в PostgreSQL.
Вопрос - какие BigData-компоненты мне для этого нужны?

P.S. Только-только начинаю въезжать в тему больших данных, так что не пинайте сильно!
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988077
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Big17
Коллеги... Есть Kafka, куда множество продюсеров отправляют данные (JSON, а также бинарные данные).
Все это дело, я так понимаю, и называется Big Data.
Все эти данные нужно складывать в какое хранилище. И еще - JSON-овские данные нужно класть в PostgreSQL.
Вопрос - какие BigData-компоненты мне для этого нужны?

P.S. Только-только начинаю въезжать в тему больших данных, так что не пинайте сильно!

самый попсовый вариант - spark streaming читает кафку, пишет на hdfs в формате parquet + json в postgres. правда не уверен что jdbc коннектор спарка умеет с json полями postgres работать
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988110
Фотография Big17
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1

самый попсовый вариант - spark streaming читает кафку, пишет на hdfs в формате parquet + json в postgres


Так, вот не очень понял. SaprkStreaming пишет в HDFS - ок. А как вытащить данные из HDFS? Hive? (пока не трогаю PostgreSQL, чтобы не запутаться).
Т.е. как работать с данными которые сваливаются в HDFS...
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988151
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Big17

Так, вот не очень понял. SaprkStreaming пишет в HDFS - ок. А как вытащить данные из HDFS? Hive? (пока не трогаю PostgreSQL, чтобы не запутаться).
Т.е. как работать с данными которые сваливаются в HDFS...

вариантов дофига, надо больше инфы по задаче и что у вас уже есть, с чем у вас опыт. Варианты:
1) Hive + Tez / Hive + Spark, если будете дистр хадупа ставить, оно из коробки будет
2) Thrift server + Spark, в папке спарка есть start-thriftserver.sh - может быть это самый простой вариант для начала. когда я пробовал все просто было https://habr.com/ru/post/421021/
3) если есть Oracle или Vertica то они умеют делать external tables на parquet в HDFS.
4) у дистрибутива Cloudera есть Impala, она быстра, но капризна. без опыта не стоит браться
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988236
Фотография Big17
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1

вариантов дофига, надо больше инфы по задаче и что у вас уже есть, с чем у вас опыт

В больших данных опыта мало, в классических хранилищах - много.

Попробую описать задачу:
Есть множество источников данных, часть из них - это всякие технологические системы (целый зоопарк), которые отправляют данные в формате JSON в Kafka. А другая часть - это технологические видеофайлы (которые в дальнейшем планируется обрабатывать автоматизированно, типа "машинного зрения"). Их уже много и объем большой.
JSON данных будет не очень много (в смысле они не полетят в реальном времени) и объем их небольшой. В конечном итоге они должны оказаться в PostgreSQL-хранилище данных.
Весь этот объем данных хочется где-то хранить, чтобы (когда-нибудь) их анализировать.
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988298
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Big17,

выглядит что не будет тучи пользователей, желающих пускать SQL и получать ответ прямо через пару секунд. тогда Spark SQL вполне подойдет.
по видеофайлам я когда-то игрался c opencv на hadoop - видеофайл раскладывался на картинки и в параллель map-reduce джобом скармливал картинки opencv. модель глаза была обучена находить. работало не очень, фары грузовиков тоже за глаза принимала :)
сейчас наверно такое лучше спарком делать.
сейчас мутное время, Cloudera купила Hortonworks и закрыла новые дистрибутивы. получается что если на перспективу то надо самому собирать Hadoop. я бы поставил бы ванильный Hadoop и прикрутил бы Ambari админку, apache Zeppeline. с этого Zeppeline SQL запросы тоже можно пускать в Spark. но не уверен как оно без Hive на тему разграничения прав работает.
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988538
7rt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1

самый попсовый вариант - spark streaming читает кафку, пишет на hdfs в формате parquet + json в postgres. правда не уверен что jdbc коннектор спарка умеет с json полями postgres работать

Пробовать надо. У меня был опыт, когда DBI driver отказался пенделить массивы в поле Постгреса. Поплюхался и сделал по другому.

Кст. по Sparkу подскажите. Сейчас многие, когда оптимизируют тормоза Питона в Спарке, переходят на Scala. При полном игноре R. В R многопоточное программирование, вставки на С и оптимизация стали уже нормой, в отличии от Python, где это делается изредка, обычно на коленке.
Вы не в курсе, в чем причина ?
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988544
7rt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Big17
А другая часть - это технологические видеофайлы (которые в дальнейшем планируется обрабатывать автоматизированно, типа "машинного зрения"). Их уже много и объем большой.


Какую аналитику думаете извлекать из видео ?
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988575
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
7rt

Кст. по Sparkу подскажите. Сейчас многие, когда оптимизируют тормоза Питона в Спарке, переходят на Scala. При полном игноре R. В R многопоточное программирование, вставки на С и оптимизация стали уже нормой, в отличии от Python, где это делается изредка, обычно на коленке.
Вы не в курсе, в чем причина ?

из-за масштабирования наверно. разве R умеет в кластерной среде работать ? мне кажется программа на R на одной машине выполняться умеет, а спарк почти как взрослая субд. подготовит план, раскидает расчеты по узлам кластера, соберет результат в едином месте.
а в спарке что питон, что R, сбоку приделаны. остается java или scala
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988594
7rt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
[quot H5N1#22180792]
7rt

из-за масштабирования наверно. разве R умеет в кластерной среде работать ? мне кажется программа на R на одной машине выполняться умеет

Да, через Spark.
Я имел ввиду возможность использовать более одного потока на каждой ноде. При однопоточном программировании, Spark растиражирует выполнение куска кода на 20 нод, но в каждой будет задействовано 1 ядро. К примеру в каждой ноде по 16 ядер.
Многопоточный вариант даст возможность использовать 20 * 15 ядер.
+ к этому подключать оптимизированные библиотеки.
А так, конечно масштабируется не самостоятельно, для этого и используют Spark.

Но вариант, что коннект через родную Scala более проработан, я вполне допускаю, надо смотреть, бенчмарить.
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988653
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
7rt

А так, конечно масштабируется не самостоятельно, для этого и используют Spark.

а через спарк R получает заметный пенальти, т.к. в отличие от скалы выполняется за пределами jvm.
спарк вычитывает файлик, стрит объекты в jvm, если скала работает уже с этими объектами, то для R их нужно засерилизовать и предеать R программе, которая будет тратить память и процессор на дессириализацию.
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988702
Фотография Big17
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
7rt

Какую аналитику думаете извлекать из видео ?

Интенсивность транспортного потока (без распознавания номеров), факт движения.
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988772
7rt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1

а через спарк R получает заметный пенальти, т.к. в отличие от скалы выполняется за пределами jvm.
спарк вычитывает файлик, стрит объекты в jvm, если скала работает уже с этими объектами, то для R их нужно засерилизовать и предеать R программе, которая будет тратить память и процессор на дессириализацию.


Вот тут скорее всего вы правы.
Надо разбираться с сериализацией. Через javа R работает тяжеловато.
Хотя я считал, что сериализация влияет при I/O на HDD.

Не подскажите, где почитать про сериализацию in_memory ?

Значит придется изучать Scala.
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39988864
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Есть Kafka, как и где хранить данные?
    #39989151
7rt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник


Благодарю )))
Буду изучать.
...
Рейтинг: 0 / 0
15 сообщений из 15, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Есть Kafka, как и где хранить данные?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]