Данные из Kafka в HDFS / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Данные из Kafka в HDFS

9 сообщений из 9, страница 1 из 1

Данные из Kafka в HDFS

#39995138

Big17

Участник

Сообщения: 683

Рейтинг: 0 / 0

Коллеги, подскажите, какие есть варианты передачи данных из Kafka в HDFS?
Есть ли типовое решение, "которое все используют"?

...

Рейтинг:

0 / 0

03.09.2020, 10:06

| Ответить | Цитировать | Написать

Данные из Kafka в HDFS

#39995422

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

Big17,

https://nifi.apache.org/

там есть 2 квадратика
consume kafka и put hdfs

...

Рейтинг:

0 / 0

03.09.2020, 23:45

| Ответить | Цитировать | Написать

Данные из Kafka в HDFS

#39995580

Бумбараш

Участник

Откуда: никем не победимая, самая любимая

Сообщения: 1 090

Рейтинг: 0 / 0

MR JOB на Java написать

...

Рейтинг:

0 / 0

04.09.2020, 12:28

| Ответить | Цитировать | Написать

Данные из Kafka в HDFS

#39995744

pihel

Гость

Big17,

Spark Structure Streaming

...

Рейтинг:

0 / 0

04.09.2020, 17:50

| Ответить | Цитировать | Написать

Данные из Kafka в HDFS

#40016389

Big17

Участник

Сообщения: 683

Рейтинг: 0 / 0

Big17

Коллеги, подскажите, какие есть варианты передачи данных из Kafka в HDFS?

По мере погружения в экосистему Hadoop моя задача начинает приобретать некоторые очертания.

Вобщем, есть множество JSON-файлов (очень простых по структуре - по сути, это просто кортежи в JSON-обертке, маленькие по размеру - несколько килобайт). Эти файлы забираются по API из другой системы (еще вариант - другая система может отправлять их в Kafk'у).

Сохранять все нужно в HDFS в структуре, доступной в Hive, допустим в Avro.

Рассматриваю сейчас такие варианты: NiFi и Kafka Connector.

Но никак не могу понять на какой стадии и какой из компонентов системы должен преобразовать JSON-файлы в Avro-файлы?
Причем, если я правильно, понимаю, в HDFS должно храниться не множество мелких Avro-файликов (каждый из которых сделан из JSON-файла), а один большой Avro-файл (созданный и постоянно пополняющийся данными из новых JSON-файлов)?
Т.е. где происходит то самое преобразование нескольких мелких json-ов в один большой Avro-файл (доступный из Hive)?

Совсем запутался ((

...

Рейтинг:

0 / 0

09.11.2020, 00:05

| Ответить | Цитировать | Написать

Данные из Kafka в HDFS

#40016392

Бумбараш

Участник

Откуда: никем не победимая, самая любимая

Сообщения: 1 090

Рейтинг: 0 / 0

В найфай процессор должен быть, который в Авро трансформит.
Или там уже все в Авро передается в нацфае, не помню.

...

Рейтинг:

0 / 0

09.11.2020, 00:40

| Ответить | Цитировать | Написать

Данные из Kafka в HDFS

#40016431

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Big17,

классически ты должен был бы писать сырые json в raw zone, после очистки и обогощения в gold zone. если структура простая то логично было бы в gold zone писать по партициям в каком-то колоночном формате типа parquet или orc, а не авро. потом, отдельным джобом проходить по партициям и перепаковывать мелкие файлы в один большой.

...

Рейтинг:

0 / 0

09.11.2020, 10:14

| Ответить | Цитировать | Написать

Данные из Kafka в HDFS

#40016440

Big17

Участник

Сообщения: 683

Рейтинг: 0 / 0

H5N1

Big17,
классически ты должен был бы писать сырые json в raw zone, после очистки и обогощения в gold zone. если структура простая то логично было бы в gold zone писать по партициям в каком-то колоночном формате типа parquet или orc, а не авро. потом, отдельным джобом проходить по партициям и перепаковывать мелкие файлы в один большой.

"raw zone" и "gold zone" (не сталкивался еще с этими терминами, использовал stage-area, наверное по смыслу тоже самое) должны быть на HDFS?
Т.е. гнать мелкие JSON-файлы прямо в HDFS, а затем их обрабатывать/упаковывать/т.п. и класть опять в HDFS, после чего удалять JSON-ы?

...

Рейтинг:

0 / 0

09.11.2020, 11:04

| Ответить | Цитировать | Написать

Данные из Kafka в HDFS

#40016454

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Big17

под stage area все таки кусок из рдбмс, который мерджить нужно будет в хронилище, обычно понимают, а у тебя просто файлики. raw обычно упаковать и сохранить стараются, если там персональных данных нет.
я бы на спарке наверно такое делал, наверно по дням партиции. сохранял бы в json в raw zone и тут же тот же датафрейм в parquet формате в gold zone для hive. ночью, отдельным джобом, упарковывал бы партицию за прошедший день в raw и слепливал паркеты в gold.
обычно в gold идут данные только валидированные данные, часто обогащенные, потому обычно нужен raw, что бы иметь возможность проиграть сырые данные заново и снова получить витрины в gold.
полистай Bill Inmon Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump, там чуть другая терминалогия но смысл тот же.

...

Рейтинг:

0 / 0

09.11.2020, 11:42

| Ответить | Цитировать | Написать

9 сообщений из 9, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Данные из Kafka в HDFS

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&gotonew=1&tid=1856544]:	0ms
get settings:	9ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	46ms
get topic data:	13ms
get first new msg:	8ms
get forum data:	3ms
get page messages:	55ms
get tp. blocked users:	2ms
others:	244ms

total:	400ms