powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop и запуск задач с ограничением по ресурсам
5 сообщений из 5, страница 1 из 1
Hadoop и запуск задач с ограничением по ресурсам
    #39392100
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Добрый день!

Есть hadoop (CDH 5.4), yarn.

Надо запустить задачку по скачиванию файлов (порядка 1000 файлов на 100Гб) с внешнего сервера в hdfs. При этом ограничение- не более 2х потоков.
Сейчас маппер читает и создаёт список файлов, а reducer (задано ограничеие 2 редьюсера на job'у) качает.
Минусы:
1.Внешнее API нестабильное. Одна нода может качать со скоростью 3Мб/с, другая - 1Мб/с (предсказать невозможно). Как результат- вместо 8ч (из расчёта 2Гб/с с каждой ноды) по плану- один редьюсер отработает 4ч, а второй- 12. И никак не передать.
2. Прогресс-бар в hadoop никакой. Т.е. для редьюсера он вообще никакой.

При запуске работы в мапперах не существует способа ограничить число выполняющихся мапперов. Как результат- стартует закачка в 100 потоков и сервер нас убьёт :)

Можно ли в yarn как-то сказать, что вот 1000 задачек, но выполняй 2 одновременно с нормальным прогресс-баром и общей очередью?

--<br /> Алексей.<br />
...
Рейтинг: 0 / 0
Hadoop и запуск задач с ограничением по ресурсам
    #39392152
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А зачем это вообще делать на hadoop? Качайте каким-нибудь flashget, а потом заливайте в hdfs
...
Рейтинг: 0 / 0
Hadoop и запуск задач с ограничением по ресурсам
    #39392269
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinА зачем это вообще делать на hadoop? Качайте каким-нибудь flashget, а потом заливайте в hdfs

flashget не выйдет- надо свой код (заморочки с авторзацией и вообще там странно всё).
Запускать прдётся на ноде кластера (иначе лишняя сетевая нагрузка- всё же 100+ Гб каждые сутки).
Деплоить и запускать отдельное java-приложение по рассписанию- это тоже проблемы. Да ещё и на двух нодах (большое двух нельзя, меньше- в 2 раза дольше будет).
...
Рейтинг: 0 / 0
Hadoop и запуск задач с ограничением по ресурсам
    #39392600
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominAlexander RyndinА зачем это вообще делать на hadoop? Качайте каким-нибудь flashget, а потом заливайте в hdfs

flashget не выйдет- надо свой код (заморочки с авторзацией и вообще там странно всё).
Запускать прдётся на ноде кластера (иначе лишняя сетевая нагрузка- всё же 100+ Гб каждые сутки).
Деплоить и запускать отдельное java-приложение по рассписанию- это тоже проблемы. Да ещё и на двух нодах (большое двух нельзя, меньше- в 2 раза дольше будет).Дело ваше, но, по моему, это поиск проблем на пустом месте. 100 Гб файл можно спокойно качать на отдельной машине и заливать его. Кстати, что у вас будет с докачкой файла? Это ведь тоже надо продумывать.
...
Рейтинг: 0 / 0
Hadoop и запуск задач с ограничением по ресурсам
    #39393144
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinДело ваше, но, по моему, это поиск проблем на пустом месте. 100 Гб файл можно спокойно качать на отдельной машине и заливать его. Кстати, что у вас будет с докачкой файла? Это ведь тоже надо продумывать.

Докачка не нужна- файлы не более 100Мб. Скачается ещё раз.
А заводить отдельную машину (платить аренду, мониторить падения, деплоить новые версии)- это непросто.
...
Рейтинг: 0 / 0
5 сообщений из 5, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop и запуск задач с ограничением по ресурсам
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]