|
|
|
Hadoop и запуск задач с ограничением по ресурсам
|
|||
|---|---|---|---|
|
#18+
Добрый день! Есть hadoop (CDH 5.4), yarn. Надо запустить задачку по скачиванию файлов (порядка 1000 файлов на 100Гб) с внешнего сервера в hdfs. При этом ограничение- не более 2х потоков. Сейчас маппер читает и создаёт список файлов, а reducer (задано ограничеие 2 редьюсера на job'у) качает. Минусы: 1.Внешнее API нестабильное. Одна нода может качать со скоростью 3Мб/с, другая - 1Мб/с (предсказать невозможно). Как результат- вместо 8ч (из расчёта 2Гб/с с каждой ноды) по плану- один редьюсер отработает 4ч, а второй- 12. И никак не передать. 2. Прогресс-бар в hadoop никакой. Т.е. для редьюсера он вообще никакой. При запуске работы в мапперах не существует способа ограничить число выполняющихся мапперов. Как результат- стартует закачка в 100 потоков и сервер нас убьёт :) Можно ли в yarn как-то сказать, что вот 1000 задачек, но выполняй 2 одновременно с нормальным прогресс-баром и общей очередью? --<br /> Алексей.<br /> ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.01.2017, 14:28 |
|
||
|
Hadoop и запуск задач с ограничением по ресурсам
|
|||
|---|---|---|---|
|
#18+
А зачем это вообще делать на hadoop? Качайте каким-нибудь flashget, а потом заливайте в hdfs ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.01.2017, 15:18 |
|
||
|
Hadoop и запуск задач с ограничением по ресурсам
|
|||
|---|---|---|---|
|
#18+
Alexander RyndinА зачем это вообще делать на hadoop? Качайте каким-нибудь flashget, а потом заливайте в hdfs flashget не выйдет- надо свой код (заморочки с авторзацией и вообще там странно всё). Запускать прдётся на ноде кластера (иначе лишняя сетевая нагрузка- всё же 100+ Гб каждые сутки). Деплоить и запускать отдельное java-приложение по рассписанию- это тоже проблемы. Да ещё и на двух нодах (большое двух нельзя, меньше- в 2 раза дольше будет). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.01.2017, 16:31 |
|
||
|
Hadoop и запуск задач с ограничением по ресурсам
|
|||
|---|---|---|---|
|
#18+
Alexey TominAlexander RyndinА зачем это вообще делать на hadoop? Качайте каким-нибудь flashget, а потом заливайте в hdfs flashget не выйдет- надо свой код (заморочки с авторзацией и вообще там странно всё). Запускать прдётся на ноде кластера (иначе лишняя сетевая нагрузка- всё же 100+ Гб каждые сутки). Деплоить и запускать отдельное java-приложение по рассписанию- это тоже проблемы. Да ещё и на двух нодах (большое двух нельзя, меньше- в 2 раза дольше будет).Дело ваше, но, по моему, это поиск проблем на пустом месте. 100 Гб файл можно спокойно качать на отдельной машине и заливать его. Кстати, что у вас будет с докачкой файла? Это ведь тоже надо продумывать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.01.2017, 00:51 |
|
||
|
Hadoop и запуск задач с ограничением по ресурсам
|
|||
|---|---|---|---|
|
#18+
Alexander RyndinДело ваше, но, по моему, это поиск проблем на пустом месте. 100 Гб файл можно спокойно качать на отдельной машине и заливать его. Кстати, что у вас будет с докачкой файла? Это ведь тоже надо продумывать. Докачка не нужна- файлы не более 100Мб. Скачается ещё раз. А заводить отдельную машину (платить аренду, мониторить падения, деплоить новые версии)- это непросто. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.01.2017, 15:16 |
|
||
|
|

start [/forum/topic.php?fid=48&msg=39392152&tid=1856711]: |
0ms |
get settings: |
7ms |
get forum list: |
11ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
163ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
44ms |
get tp. blocked users: |
1ms |
| others: | 12ms |
| total: | 256ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...