powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / HDFS stupid questions
12 сообщений из 12, страница 1 из 1
HDFS stupid questions
    #39195960
Фотография essbase.ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не пинайте больно , хочется узнать "по быстрому" ))

Задача процессинг текстовых файлов ,
Есть (будет ) сотни лямов csv файлов размером 100-200 kb (~1,5-2 TB) , по своей структуре напоминающие таблицу фактов

Над всем этим чудом будет веб-ферма веб служб , которые будут создавать и удалять эти файлы произвольным (и хаотичным) образом.
Требуется сверхбыстрый доступ.

Вопрос , - что я должен знать о HDFS , что бы не наступить на очевидные грабли.

Например
включить сжатие ?? (оно есть ? )
использовать систему мониторинга , что бы вовремя добавить узел в кластер
в качестве провайдера услуг , думаю о дешевом SSD хостинге ( digitalocean ?? ) , есть ли возможность объединять HDFS узлы через SSH ?
есть ли у HDFS web служба из коробки ?
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39196159
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
essbase.ruНе пинайте больно , хочется узнать "по быстрому" ))

Задача процессинг текстовых файлов ,
Есть (будет ) сотни лямов csv файлов размером 100-200 kb (~1,5-2 TB) , по своей структуре напоминающие таблицу фактов

Над всем этим чудом будет веб-ферма веб служб , которые будут создавать и удалять эти файлы произвольным (и хаотичным) образом.
Требуется сверхбыстрый доступ.

Вопрос , - что я должен знать о HDFS , что бы не наступить на очевидные грабли.

Например
включить сжатие ?? (оно есть ? )
использовать систему мониторинга , что бы вовремя добавить узел в кластер
в качестве провайдера услуг , думаю о дешевом SSD хостинге ( digitalocean ?? ) , есть ли возможность объединять HDFS узлы через SSH ?
есть ли у HDFS web служба из коробки ?

1. Hdfs всё же не само по себе. Если CDH - то там есть веб-служба (Hue).

2. Hdfs ОЧЕНЬ не любит большого количества файлов. Мой опыт- перепаковка 200 000 несжатых файлов в 2000 сжатых (где-то в 3-5 раз ужимались) snappy повысила скорость обработки раз в 100. Более того, до перепаковки часто процесс падал при обработке. Данных- было 1000 и 5Мб строк в каждом файле (т.е. в сумме террабайт где-то). Но надо понимать, что менять файлы в hdfs тоже плохая затея- так что придётся переписывать весь файл заново.

3. Сжатие хорошо. Самый быстрый вроде snappy, но надо пробовать- может bzip2 лучше будет.

4. С временем доступа в hadoop вообще плохо. Это ж слоник- разгоняется долго :)
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39196345
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
essbase.ru,

Узкое место - сотни лямов файлов маленького объема. Будут проблемы с heapsize на namenode. Как на счет того, чтобы простейшим ETL мерджить эти файлы или даже конвертировать в parquet?
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39196398
Фотография essbase.ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Спасибо за ответы )
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39197132
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
essbase.ru,

От какого вендора вы собираетесь \ используете дистрибутив hadoop ? (интересно )
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39197147
Фотография essbase.ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Станислав Клевцов,

Уже не собираюсь ) Думал свою балалайку мутить , но пока остановился на Google BigQuery
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39197163
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
essbase.ru,

ну как вариант... не пробовал этот сервис :-) остаётся пожелать успехов Вам в проекте )
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39197513
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Для обозначенной выше задачи нужна key-value DB, а не HDFS.
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39197705
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apex,

типо подойдет mongodb и другие :-) ?
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39197762
Фотография essbase.ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexДля обозначенной выше задачи нужна key-value DB, а не HDFS.

Эх.. если бы данные нужно было бы только хранить .. так ведь еще и реал-тайм аналитика нужна.

Конечно есть и здесь откровение - KUDU ... В общем я пока с Гугл.. потом посмотрим во что выльется эволюционной выверт бигдадты .


ЕР
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39198314
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
essbase.ruтак ведь еще и реал-тайм аналитика нужна.

Ну есть Redis например.
...
Рейтинг: 0 / 0
HDFS stupid questions
    #39200212
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
12 сообщений из 12, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / HDFS stupid questions
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]