|
Данные из Kafka в HDFS
|
|||
---|---|---|---|
#18+
Коллеги, подскажите, какие есть варианты передачи данных из Kafka в HDFS? Есть ли типовое решение, "которое все используют"? ... |
|||
:
Нравится:
Не нравится:
|
|||
03.09.2020, 10:06 |
|
Данные из Kafka в HDFS
|
|||
---|---|---|---|
#18+
MR JOB на Java написать ... |
|||
:
Нравится:
Не нравится:
|
|||
04.09.2020, 12:28 |
|
Данные из Kafka в HDFS
|
|||
---|---|---|---|
#18+
Big17, Spark Structure Streaming ... |
|||
:
Нравится:
Не нравится:
|
|||
04.09.2020, 17:50 |
|
Данные из Kafka в HDFS
|
|||
---|---|---|---|
#18+
Big17 Коллеги, подскажите, какие есть варианты передачи данных из Kafka в HDFS? По мере погружения в экосистему Hadoop моя задача начинает приобретать некоторые очертания. Вобщем, есть множество JSON-файлов (очень простых по структуре - по сути, это просто кортежи в JSON-обертке, маленькие по размеру - несколько килобайт). Эти файлы забираются по API из другой системы (еще вариант - другая система может отправлять их в Kafk'у). Сохранять все нужно в HDFS в структуре, доступной в Hive, допустим в Avro. Рассматриваю сейчас такие варианты: NiFi и Kafka Connector. Но никак не могу понять на какой стадии и какой из компонентов системы должен преобразовать JSON-файлы в Avro-файлы? Причем, если я правильно, понимаю, в HDFS должно храниться не множество мелких Avro-файликов (каждый из которых сделан из JSON-файла), а один большой Avro-файл (созданный и постоянно пополняющийся данными из новых JSON-файлов)? Т.е. где происходит то самое преобразование нескольких мелких json-ов в один большой Avro-файл (доступный из Hive)? Совсем запутался (( ... |
|||
:
Нравится:
Не нравится:
|
|||
09.11.2020, 00:05 |
|
Данные из Kafka в HDFS
|
|||
---|---|---|---|
#18+
В найфай процессор должен быть, который в Авро трансформит. Или там уже все в Авро передается в нацфае, не помню. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.11.2020, 00:40 |
|
Данные из Kafka в HDFS
|
|||
---|---|---|---|
#18+
Big17, классически ты должен был бы писать сырые json в raw zone, после очистки и обогощения в gold zone. если структура простая то логично было бы в gold zone писать по партициям в каком-то колоночном формате типа parquet или orc, а не авро. потом, отдельным джобом проходить по партициям и перепаковывать мелкие файлы в один большой. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.11.2020, 10:14 |
|
Данные из Kafka в HDFS
|
|||
---|---|---|---|
#18+
H5N1 Big17, классически ты должен был бы писать сырые json в raw zone, после очистки и обогощения в gold zone. если структура простая то логично было бы в gold zone писать по партициям в каком-то колоночном формате типа parquet или orc, а не авро. потом, отдельным джобом проходить по партициям и перепаковывать мелкие файлы в один большой. "raw zone" и "gold zone" (не сталкивался еще с этими терминами, использовал stage-area, наверное по смыслу тоже самое) должны быть на HDFS? Т.е. гнать мелкие JSON-файлы прямо в HDFS, а затем их обрабатывать/упаковывать/т.п. и класть опять в HDFS, после чего удалять JSON-ы? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.11.2020, 11:04 |
|
Данные из Kafka в HDFS
|
|||
---|---|---|---|
#18+
Big17 "raw zone" и "gold zone" (не сталкивался еще с этими терминами, использовал stage-area, наверное по смыслу тоже самое) должны быть на HDFS? Т.е. гнать мелкие JSON-файлы прямо в HDFS, а затем их обрабатывать/упаковывать/т.п. и класть опять в HDFS, после чего удалять JSON-ы? под stage area все таки кусок из рдбмс, который мерджить нужно будет в хронилище, обычно понимают, а у тебя просто файлики. raw обычно упаковать и сохранить стараются, если там персональных данных нет. я бы на спарке наверно такое делал, наверно по дням партиции. сохранял бы в json в raw zone и тут же тот же датафрейм в parquet формате в gold zone для hive. ночью, отдельным джобом, упарковывал бы партицию за прошедший день в raw и слепливал паркеты в gold. обычно в gold идут данные только валидированные данные, часто обогащенные, потому обычно нужен raw, что бы иметь возможность проиграть сырые данные заново и снова получить витрины в gold. полистай Bill Inmon Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump, там чуть другая терминалогия но смысл тот же. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.11.2020, 11:42 |
|
|
start [/forum/topic.php?fid=48&gotonew=1&tid=1856544]: |
0ms |
get settings: |
9ms |
get forum list: |
14ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
46ms |
get topic data: |
13ms |
get first new msg: |
8ms |
get forum data: |
3ms |
get page messages: |
55ms |
get tp. blocked users: |
2ms |
others: | 244ms |
total: | 400ms |
0 / 0 |