Hadoop и запуск задач с ограничением по ресурсам / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop и запуск задач с ограничением по ресурсам

5 сообщений из 5, страница 1 из 1

Hadoop и запуск задач с ограничением по ресурсам

#39392100

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Добрый день!

Есть hadoop (CDH 5.4), yarn.

Надо запустить задачку по скачиванию файлов (порядка 1000 файлов на 100Гб) с внешнего сервера в hdfs. При этом ограничение- не более 2х потоков.
Сейчас маппер читает и создаёт список файлов, а reducer (задано ограничеие 2 редьюсера на job'у) качает.
Минусы:
1.Внешнее API нестабильное. Одна нода может качать со скоростью 3Мб/с, другая - 1Мб/с (предсказать невозможно). Как результат- вместо 8ч (из расчёта 2Гб/с с каждой ноды) по плану- один редьюсер отработает 4ч, а второй- 12. И никак не передать.
2. Прогресс-бар в hadoop никакой. Т.е. для редьюсера он вообще никакой.

При запуске работы в мапперах не существует способа ограничить число выполняющихся мапперов. Как результат- стартует закачка в 100 потоков и сервер нас убьёт :)

Можно ли в yarn как-то сказать, что вот 1000 задачек, но выполняй 2 одновременно с нормальным прогресс-баром и общей очередью?

--<br /> Алексей.<br />

...

Рейтинг:

0 / 0

26.01.2017, 14:28

| Ответить | Цитировать | Написать

Hadoop и запуск задач с ограничением по ресурсам

#39392152

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

А зачем это вообще делать на hadoop? Качайте каким-нибудь flashget, а потом заливайте в hdfs

...

Рейтинг:

0 / 0

26.01.2017, 15:18

| Ответить | Цитировать | Написать

Hadoop и запуск задач с ограничением по ресурсам

#39392269

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Alexander RyndinА зачем это вообще делать на hadoop? Качайте каким-нибудь flashget, а потом заливайте в hdfs

flashget не выйдет- надо свой код (заморочки с авторзацией и вообще там странно всё).
Запускать прдётся на ноде кластера (иначе лишняя сетевая нагрузка- всё же 100+ Гб каждые сутки).
Деплоить и запускать отдельное java-приложение по рассписанию- это тоже проблемы. Да ещё и на двух нодах (большое двух нельзя, меньше- в 2 раза дольше будет).

...

Рейтинг:

0 / 0

26.01.2017, 16:31

| Ответить | Цитировать | Написать

Hadoop и запуск задач с ограничением по ресурсам

#39392600

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

Alexey TominAlexander RyndinА зачем это вообще делать на hadoop? Качайте каким-нибудь flashget, а потом заливайте в hdfs

flashget не выйдет- надо свой код (заморочки с авторзацией и вообще там странно всё).
Запускать прдётся на ноде кластера (иначе лишняя сетевая нагрузка- всё же 100+ Гб каждые сутки).
Деплоить и запускать отдельное java-приложение по рассписанию- это тоже проблемы. Да ещё и на двух нодах (большое двух нельзя, меньше- в 2 раза дольше будет).Дело ваше, но, по моему, это поиск проблем на пустом месте. 100 Гб файл можно спокойно качать на отдельной машине и заливать его. Кстати, что у вас будет с докачкой файла? Это ведь тоже надо продумывать.

...

Рейтинг:

0 / 0

27.01.2017, 00:51

| Ответить | Цитировать | Написать

Hadoop и запуск задач с ограничением по ресурсам

#39393144

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Alexander RyndinДело ваше, но, по моему, это поиск проблем на пустом месте. 100 Гб файл можно спокойно качать на отдельной машине и заливать его. Кстати, что у вас будет с докачкой файла? Это ведь тоже надо продумывать.

Докачка не нужна- файлы не более 100Мб. Скачается ещё раз.
А заводить отдельную машину (платить аренду, мониторить падения, деплоить новые версии)- это непросто.

...

Рейтинг:

0 / 0

27.01.2017, 15:16

| Ответить | Цитировать | Написать

5 сообщений из 5, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop и запуск задач с ограничением по ресурсам

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&msg=39393144&tid=1856711]:	0ms
get settings:	11ms
get forum list:	14ms
check forum access:	4ms
check topic access:	4ms
track hit:	32ms
get topic data:	9ms
get forum data:	2ms
get page messages:	42ms
get tp. blocked users:	1ms
others:	329ms

total:	448ms