Гость
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / HDFS stupid questions / 12 сообщений из 12, страница 1 из 1
19.03.2016, 12:07
    #39195960
essbase.ru
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
Не пинайте больно , хочется узнать "по быстрому" ))

Задача процессинг текстовых файлов ,
Есть (будет ) сотни лямов csv файлов размером 100-200 kb (~1,5-2 TB) , по своей структуре напоминающие таблицу фактов

Над всем этим чудом будет веб-ферма веб служб , которые будут создавать и удалять эти файлы произвольным (и хаотичным) образом.
Требуется сверхбыстрый доступ.

Вопрос , - что я должен знать о HDFS , что бы не наступить на очевидные грабли.

Например
включить сжатие ?? (оно есть ? )
использовать систему мониторинга , что бы вовремя добавить узел в кластер
в качестве провайдера услуг , думаю о дешевом SSD хостинге ( digitalocean ?? ) , есть ли возможность объединять HDFS узлы через SSH ?
есть ли у HDFS web служба из коробки ?
...
Рейтинг: 0 / 0
19.03.2016, 19:25
    #39196159
Alexey Tomin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
essbase.ruНе пинайте больно , хочется узнать "по быстрому" ))

Задача процессинг текстовых файлов ,
Есть (будет ) сотни лямов csv файлов размером 100-200 kb (~1,5-2 TB) , по своей структуре напоминающие таблицу фактов

Над всем этим чудом будет веб-ферма веб служб , которые будут создавать и удалять эти файлы произвольным (и хаотичным) образом.
Требуется сверхбыстрый доступ.

Вопрос , - что я должен знать о HDFS , что бы не наступить на очевидные грабли.

Например
включить сжатие ?? (оно есть ? )
использовать систему мониторинга , что бы вовремя добавить узел в кластер
в качестве провайдера услуг , думаю о дешевом SSD хостинге ( digitalocean ?? ) , есть ли возможность объединять HDFS узлы через SSH ?
есть ли у HDFS web служба из коробки ?

1. Hdfs всё же не само по себе. Если CDH - то там есть веб-служба (Hue).

2. Hdfs ОЧЕНЬ не любит большого количества файлов. Мой опыт- перепаковка 200 000 несжатых файлов в 2000 сжатых (где-то в 3-5 раз ужимались) snappy повысила скорость обработки раз в 100. Более того, до перепаковки часто процесс падал при обработке. Данных- было 1000 и 5Мб строк в каждом файле (т.е. в сумме террабайт где-то). Но надо понимать, что менять файлы в hdfs тоже плохая затея- так что придётся переписывать весь файл заново.

3. Сжатие хорошо. Самый быстрый вроде snappy, но надо пробовать- может bzip2 лучше будет.

4. С временем доступа в hadoop вообще плохо. Это ж слоник- разгоняется долго :)
...
Рейтинг: 0 / 0
20.03.2016, 10:26
    #39196345
haXbat
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
essbase.ru,

Узкое место - сотни лямов файлов маленького объема. Будут проблемы с heapsize на namenode. Как на счет того, чтобы простейшим ETL мерджить эти файлы или даже конвертировать в parquet?
...
Рейтинг: 0 / 0
20.03.2016, 13:12
    #39196398
essbase.ru
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
Спасибо за ответы )
...
Рейтинг: 0 / 0
21.03.2016, 13:58
    #39197132
Станислав Клевцов
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
essbase.ru,

От какого вендора вы собираетесь \ используете дистрибутив hadoop ? (интересно )
...
Рейтинг: 0 / 0
21.03.2016, 14:10
    #39197147
essbase.ru
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
Станислав Клевцов,

Уже не собираюсь ) Думал свою балалайку мутить , но пока остановился на Google BigQuery
...
Рейтинг: 0 / 0
21.03.2016, 14:22
    #39197163
Станислав Клевцов
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
essbase.ru,

ну как вариант... не пробовал этот сервис :-) остаётся пожелать успехов Вам в проекте )
...
Рейтинг: 0 / 0
21.03.2016, 22:14
    #39197513
Apex
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
Для обозначенной выше задачи нужна key-value DB, а не HDFS.
...
Рейтинг: 0 / 0
22.03.2016, 10:12
    #39197705
Станислав Клевцов
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
Apex,

типо подойдет mongodb и другие :-) ?
...
Рейтинг: 0 / 0
22.03.2016, 10:55
    #39197762
essbase.ru
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
ApexДля обозначенной выше задачи нужна key-value DB, а не HDFS.

Эх.. если бы данные нужно было бы только хранить .. так ведь еще и реал-тайм аналитика нужна.

Конечно есть и здесь откровение - KUDU ... В общем я пока с Гугл.. потом посмотрим во что выльется эволюционной выверт бигдадты .


ЕР
...
Рейтинг: 0 / 0
22.03.2016, 20:25
    #39198314
Apex
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
essbase.ruтак ведь еще и реал-тайм аналитика нужна.

Ну есть Redis например.
...
Рейтинг: 0 / 0
25.03.2016, 03:02
    #39200212
Apex
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HDFS stupid questions
...
Рейтинг: 0 / 0
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / HDFS stupid questions / 12 сообщений из 12, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]