Есть Kafka, как и где хранить данные? / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Есть Kafka, как и где хранить данные?

15 сообщений из 15, страница 1 из 1

Есть Kafka, как и где хранить данные?

#39988002

Big17

Участник

Сообщения: 683

Рейтинг: 0 / 0

Коллеги... Есть Kafka, куда множество продюсеров отправляют данные (JSON, а также бинарные данные).
Все это дело, я так понимаю, и называется Big Data.
Все эти данные нужно складывать в какое хранилище. И еще - JSON-овские данные нужно класть в PostgreSQL.
Вопрос - какие BigData-компоненты мне для этого нужны?

P.S. Только-только начинаю въезжать в тему больших данных, так что не пинайте сильно!

...

Рейтинг:

0 / 0

09.08.2020, 23:22

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988077

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Big17

самый попсовый вариант - spark streaming читает кафку, пишет на hdfs в формате parquet + json в postgres. правда не уверен что jdbc коннектор спарка умеет с json полями postgres работать

...

Рейтинг:

0 / 0

10.08.2020, 10:48

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988110

Big17

Участник

Сообщения: 683

Рейтинг: 0 / 0

H5N1

самый попсовый вариант - spark streaming читает кафку, пишет на hdfs в формате parquet + json в postgres

Так, вот не очень понял. SaprkStreaming пишет в HDFS - ок. А как вытащить данные из HDFS? Hive? (пока не трогаю PostgreSQL, чтобы не запутаться).
Т.е. как работать с данными которые сваливаются в HDFS...

...

Рейтинг:

0 / 0

10.08.2020, 12:01

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988151

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Big17

вариантов дофига, надо больше инфы по задаче и что у вас уже есть, с чем у вас опыт. Варианты:
1) Hive + Tez / Hive + Spark, если будете дистр хадупа ставить, оно из коробки будет
2) Thrift server + Spark, в папке спарка есть start-thriftserver.sh - может быть это самый простой вариант для начала. когда я пробовал все просто было https://habr.com/ru/post/421021/
3) если есть Oracle или Vertica то они умеют делать external tables на parquet в HDFS.
4) у дистрибутива Cloudera есть Impala, она быстра, но капризна. без опыта не стоит браться

...

Рейтинг:

0 / 0

10.08.2020, 13:05

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988236

Big17

Участник

Сообщения: 683

Рейтинг: 0 / 0

H5N1

вариантов дофига, надо больше инфы по задаче и что у вас уже есть, с чем у вас опыт

В больших данных опыта мало, в классических хранилищах - много.

Попробую описать задачу:
Есть множество источников данных, часть из них - это всякие технологические системы (целый зоопарк), которые отправляют данные в формате JSON в Kafka. А другая часть - это технологические видеофайлы (которые в дальнейшем планируется обрабатывать автоматизированно, типа "машинного зрения"). Их уже много и объем большой.
JSON данных будет не очень много (в смысле они не полетят в реальном времени) и объем их небольшой. В конечном итоге они должны оказаться в PostgreSQL-хранилище данных.
Весь этот объем данных хочется где-то хранить, чтобы (когда-нибудь) их анализировать.

...

Рейтинг:

0 / 0

10.08.2020, 14:59

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988298

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Big17,

выглядит что не будет тучи пользователей, желающих пускать SQL и получать ответ прямо через пару секунд. тогда Spark SQL вполне подойдет.
по видеофайлам я когда-то игрался c opencv на hadoop - видеофайл раскладывался на картинки и в параллель map-reduce джобом скармливал картинки opencv. модель глаза была обучена находить. работало не очень, фары грузовиков тоже за глаза принимала :)
сейчас наверно такое лучше спарком делать.
сейчас мутное время, Cloudera купила Hortonworks и закрыла новые дистрибутивы. получается что если на перспективу то надо самому собирать Hadoop. я бы поставил бы ванильный Hadoop и прикрутил бы Ambari админку, apache Zeppeline. с этого Zeppeline SQL запросы тоже можно пускать в Spark. но не уверен как оно без Hive на тему разграничения прав работает.

...

Рейтинг:

0 / 0

10.08.2020, 16:59

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988538

7rt

Участник

Сообщения: 11

Рейтинг: 0 / 0

H5N1

Пробовать надо. У меня был опыт, когда DBI driver отказался пенделить массивы в поле Постгреса. Поплюхался и сделал по другому.

Кст. по Sparkу подскажите. Сейчас многие, когда оптимизируют тормоза Питона в Спарке, переходят на Scala. При полном игноре R. В R многопоточное программирование, вставки на С и оптимизация стали уже нормой, в отличии от Python, где это делается изредка, обычно на коленке.
Вы не в курсе, в чем причина ?

...

Рейтинг:

0 / 0

11.08.2020, 11:06

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988544

7rt

Участник

Сообщения: 11

Рейтинг: 0 / 0

Big17

А другая часть - это технологические видеофайлы (которые в дальнейшем планируется обрабатывать автоматизированно, типа "машинного зрения"). Их уже много и объем большой.

Какую аналитику думаете извлекать из видео ?

...

Рейтинг:

0 / 0

11.08.2020, 11:11

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988575

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

7rt

Кст. по Sparkу подскажите. Сейчас многие, когда оптимизируют тормоза Питона в Спарке, переходят на Scala. При полном игноре R. В R многопоточное программирование, вставки на С и оптимизация стали уже нормой, в отличии от Python, где это делается изредка, обычно на коленке.
Вы не в курсе, в чем причина ?

из-за масштабирования наверно. разве R умеет в кластерной среде работать ? мне кажется программа на R на одной машине выполняться умеет, а спарк почти как взрослая субд. подготовит план, раскидает расчеты по узлам кластера, соберет результат в едином месте.
а в спарке что питон, что R, сбоку приделаны. остается java или scala

...

Рейтинг:

0 / 0

11.08.2020, 12:02

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988594

7rt

Участник

Сообщения: 11

Рейтинг: 0 / 0

[quot H5N1#22180792]

7rt

из-за масштабирования наверно. разве R умеет в кластерной среде работать ? мне кажется программа на R на одной машине выполняться умеет

Да, через Spark.
Я имел ввиду возможность использовать более одного потока на каждой ноде. При однопоточном программировании, Spark растиражирует выполнение куска кода на 20 нод, но в каждой будет задействовано 1 ядро. К примеру в каждой ноде по 16 ядер.
Многопоточный вариант даст возможность использовать 20 * 15 ядер.
+ к этому подключать оптимизированные библиотеки.
А так, конечно масштабируется не самостоятельно, для этого и используют Spark.

Но вариант, что коннект через родную Scala более проработан, я вполне допускаю, надо смотреть, бенчмарить.

...

Рейтинг:

0 / 0

11.08.2020, 12:32

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988653

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

7rt

А так, конечно масштабируется не самостоятельно, для этого и используют Spark.

а через спарк R получает заметный пенальти, т.к. в отличие от скалы выполняется за пределами jvm.
спарк вычитывает файлик, стрит объекты в jvm, если скала работает уже с этими объектами, то для R их нужно засерилизовать и предеать R программе, которая будет тратить память и процессор на дессириализацию.

...

Рейтинг:

0 / 0

11.08.2020, 14:22

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988702

Big17

Участник

Сообщения: 683

Рейтинг: 0 / 0

7rt

Какую аналитику думаете извлекать из видео ?

Интенсивность транспортного потока (без распознавания номеров), факт движения.

...

Рейтинг:

0 / 0

11.08.2020, 16:35

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988772

7rt

Участник

Сообщения: 11

Рейтинг: 0 / 0

H5N1

Вот тут скорее всего вы правы.
Надо разбираться с сериализацией. Через javа R работает тяжеловато.
Хотя я считал, что сериализация влияет при I/O на HDD.

Не подскажите, где почитать про сериализацию in_memory ?

Значит придется изучать Scala.

...

Рейтинг:

0 / 0

11.08.2020, 21:19

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39988864

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

7rt,

https://spark.apache.org/docs/latest/tuning.html

...

Рейтинг:

0 / 0

12.08.2020, 08:54

| Ответить | Цитировать | Написать

Есть Kafka, как и где хранить данные?

#39989151

7rt

Участник

Сообщения: 11

Рейтинг: 0 / 0

H5N1

7rt,

https://spark.apache.org/docs/latest/tuning.html

Благодарю )))
Буду изучать.

...

Рейтинг:

0 / 0

12.08.2020, 20:40

| Ответить | Цитировать | Написать

15 сообщений из 15, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Есть Kafka, как и где хранить данные?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&fpage=2&tid=1856559]:	0ms
get settings:	9ms
get forum list:	13ms
check forum access:	3ms
check topic access:	3ms
track hit:	32ms
get topic data:	11ms
get forum data:	2ms
get page messages:	51ms
get tp. blocked users:	2ms
others:	11ms

total:	137ms