powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Данные из Kafka в HDFS
9 сообщений из 9, страница 1 из 1
Данные из Kafka в HDFS
    #39995138
Фотография Big17
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги, подскажите, какие есть варианты передачи данных из Kafka в HDFS?
Есть ли типовое решение, "которое все используют"?
...
Рейтинг: 0 / 0
Данные из Kafka в HDFS
    #39995422
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Big17,

https://nifi.apache.org/

там есть 2 квадратика
consume kafka и put hdfs
...
Рейтинг: 0 / 0
Данные из Kafka в HDFS
    #39995580
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MR JOB на Java написать
...
Рейтинг: 0 / 0
Данные из Kafka в HDFS
    #39995744
pihel
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Big17,

Spark Structure Streaming
...
Рейтинг: 0 / 0
Данные из Kafka в HDFS
    #40016389
Фотография Big17
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Big17
Коллеги, подскажите, какие есть варианты передачи данных из Kafka в HDFS?


По мере погружения в экосистему Hadoop моя задача начинает приобретать некоторые очертания.

Вобщем, есть множество JSON-файлов (очень простых по структуре - по сути, это просто кортежи в JSON-обертке, маленькие по размеру - несколько килобайт). Эти файлы забираются по API из другой системы (еще вариант - другая система может отправлять их в Kafk'у).

Сохранять все нужно в HDFS в структуре, доступной в Hive, допустим в Avro.

Рассматриваю сейчас такие варианты: NiFi и Kafka Connector.

Но никак не могу понять на какой стадии и какой из компонентов системы должен преобразовать JSON-файлы в Avro-файлы?
Причем, если я правильно, понимаю, в HDFS должно храниться не множество мелких Avro-файликов (каждый из которых сделан из JSON-файла), а один большой Avro-файл (созданный и постоянно пополняющийся данными из новых JSON-файлов)?
Т.е. где происходит то самое преобразование нескольких мелких json-ов в один большой Avro-файл (доступный из Hive)?

Совсем запутался ((
...
Рейтинг: 0 / 0
Данные из Kafka в HDFS
    #40016392
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В найфай процессор должен быть, который в Авро трансформит.
Или там уже все в Авро передается в нацфае, не помню.
...
Рейтинг: 0 / 0
Данные из Kafka в HDFS
    #40016431
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Big17,

классически ты должен был бы писать сырые json в raw zone, после очистки и обогощения в gold zone. если структура простая то логично было бы в gold zone писать по партициям в каком-то колоночном формате типа parquet или orc, а не авро. потом, отдельным джобом проходить по партициям и перепаковывать мелкие файлы в один большой.
...
Рейтинг: 0 / 0
Данные из Kafka в HDFS
    #40016440
Фотография Big17
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1
Big17,
классически ты должен был бы писать сырые json в raw zone, после очистки и обогощения в gold zone. если структура простая то логично было бы в gold zone писать по партициям в каком-то колоночном формате типа parquet или orc, а не авро. потом, отдельным джобом проходить по партициям и перепаковывать мелкие файлы в один большой.


"raw zone" и "gold zone" (не сталкивался еще с этими терминами, использовал stage-area, наверное по смыслу тоже самое) должны быть на HDFS?
Т.е. гнать мелкие JSON-файлы прямо в HDFS, а затем их обрабатывать/упаковывать/т.п. и класть опять в HDFS, после чего удалять JSON-ы?
...
Рейтинг: 0 / 0
Данные из Kafka в HDFS
    #40016454
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Big17

"raw zone" и "gold zone" (не сталкивался еще с этими терминами, использовал stage-area, наверное по смыслу тоже самое) должны быть на HDFS?
Т.е. гнать мелкие JSON-файлы прямо в HDFS, а затем их обрабатывать/упаковывать/т.п. и класть опять в HDFS, после чего удалять JSON-ы?

под stage area все таки кусок из рдбмс, который мерджить нужно будет в хронилище, обычно понимают, а у тебя просто файлики. raw обычно упаковать и сохранить стараются, если там персональных данных нет.
я бы на спарке наверно такое делал, наверно по дням партиции. сохранял бы в json в raw zone и тут же тот же датафрейм в parquet формате в gold zone для hive. ночью, отдельным джобом, упарковывал бы партицию за прошедший день в raw и слепливал паркеты в gold.
обычно в gold идут данные только валидированные данные, часто обогащенные, потому обычно нужен raw, что бы иметь возможность проиграть сырые данные заново и снова получить витрины в gold.
полистай Bill Inmon Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump, там чуть другая терминалогия но смысл тот же.
...
Рейтинг: 0 / 0
9 сообщений из 9, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Данные из Kafka в HDFS
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]