|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
Не пинайте больно , хочется узнать "по быстрому" )) Задача процессинг текстовых файлов , Есть (будет ) сотни лямов csv файлов размером 100-200 kb (~1,5-2 TB) , по своей структуре напоминающие таблицу фактов Над всем этим чудом будет веб-ферма веб служб , которые будут создавать и удалять эти файлы произвольным (и хаотичным) образом. Требуется сверхбыстрый доступ. Вопрос , - что я должен знать о HDFS , что бы не наступить на очевидные грабли. Например включить сжатие ?? (оно есть ? ) использовать систему мониторинга , что бы вовремя добавить узел в кластер в качестве провайдера услуг , думаю о дешевом SSD хостинге ( digitalocean ?? ) , есть ли возможность объединять HDFS узлы через SSH ? есть ли у HDFS web служба из коробки ? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2016, 12:07 |
|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
essbase.ruНе пинайте больно , хочется узнать "по быстрому" )) Задача процессинг текстовых файлов , Есть (будет ) сотни лямов csv файлов размером 100-200 kb (~1,5-2 TB) , по своей структуре напоминающие таблицу фактов Над всем этим чудом будет веб-ферма веб служб , которые будут создавать и удалять эти файлы произвольным (и хаотичным) образом. Требуется сверхбыстрый доступ. Вопрос , - что я должен знать о HDFS , что бы не наступить на очевидные грабли. Например включить сжатие ?? (оно есть ? ) использовать систему мониторинга , что бы вовремя добавить узел в кластер в качестве провайдера услуг , думаю о дешевом SSD хостинге ( digitalocean ?? ) , есть ли возможность объединять HDFS узлы через SSH ? есть ли у HDFS web служба из коробки ? 1. Hdfs всё же не само по себе. Если CDH - то там есть веб-служба (Hue). 2. Hdfs ОЧЕНЬ не любит большого количества файлов. Мой опыт- перепаковка 200 000 несжатых файлов в 2000 сжатых (где-то в 3-5 раз ужимались) snappy повысила скорость обработки раз в 100. Более того, до перепаковки часто процесс падал при обработке. Данных- было 1000 и 5Мб строк в каждом файле (т.е. в сумме террабайт где-то). Но надо понимать, что менять файлы в hdfs тоже плохая затея- так что придётся переписывать весь файл заново. 3. Сжатие хорошо. Самый быстрый вроде snappy, но надо пробовать- может bzip2 лучше будет. 4. С временем доступа в hadoop вообще плохо. Это ж слоник- разгоняется долго :) ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2016, 19:25 |
|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
essbase.ru, Узкое место - сотни лямов файлов маленького объема. Будут проблемы с heapsize на namenode. Как на счет того, чтобы простейшим ETL мерджить эти файлы или даже конвертировать в parquet? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2016, 10:26 |
|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
Спасибо за ответы ) ... |
|||
:
Нравится:
Не нравится:
|
|||
20.03.2016, 13:12 |
|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
essbase.ru, От какого вендора вы собираетесь \ используете дистрибутив hadoop ? (интересно ) ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 13:58 |
|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
Станислав Клевцов, Уже не собираюсь ) Думал свою балалайку мутить , но пока остановился на Google BigQuery ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 14:10 |
|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
essbase.ru, ну как вариант... не пробовал этот сервис :-) остаётся пожелать успехов Вам в проекте ) ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 14:22 |
|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
Для обозначенной выше задачи нужна key-value DB, а не HDFS. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 22:14 |
|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
Apex, типо подойдет mongodb и другие :-) ? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2016, 10:12 |
|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
ApexДля обозначенной выше задачи нужна key-value DB, а не HDFS. Эх.. если бы данные нужно было бы только хранить .. так ведь еще и реал-тайм аналитика нужна. Конечно есть и здесь откровение - KUDU ... В общем я пока с Гугл.. потом посмотрим во что выльется эволюционной выверт бигдадты . ЕР ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2016, 10:55 |
|
HDFS stupid questions
|
|||
---|---|---|---|
#18+
essbase.ruтак ведь еще и реал-тайм аналитика нужна. Ну есть Redis например. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2016, 20:25 |
|
|
start [/forum/topic.php?fid=48&fpage=7&tid=1856767]: |
0ms |
get settings: |
8ms |
get forum list: |
14ms |
check forum access: |
5ms |
check topic access: |
5ms |
track hit: |
82ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
53ms |
get tp. blocked users: |
2ms |
others: | 253ms |
total: | 437ms |
0 / 0 |