|
hadoop/yarn и ограничение числа активных мапов
|
|||
---|---|---|---|
#18+
Добрый день! Есть сервер (2.3.0-cdh5.1.2). Есть кучка мапперов. Например 100. Есть job'а, включающая в себя много (10^6..10^8) логических частей. Это загрузка данных в oracle, количество частей определяется размером транзакции. Нужно, чтобы на YARN'е выполнялось сразу не 100 задач (oracle просаживается, что недопустимо), а некое заданное число. Например 10. Какие есть пока решения. 1. Временно задать кластеру 10 мапперов. Плохо, т.к. получается, что кластер ломается ради выгрузки данных. 2. Сделать размер задачи таким, чтобы задач было 10. Плохо то, что либо размер транзакции становится огромным (до миллиарда вставок), либо делаются промежуточные коммиты, что противоречит идеологии hadoop'а - если вставка поперхулась (попадается нехватка rollback-сегмента), то рестартует вся мапа и данные дублируются. Все индексы на время загрузки отключены- иначе оракл, опять же, жалуется админам на тяжелую жизнь, а там высоко-приоритетные задачи... Есть ли возможность решить проблему нормальным методом- задать для конкретной задачи максимальное число активных мапперов? -- Алексей. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2014, 12:35 |
|
hadoop/yarn и ограничение числа активных мапов
|
|||
---|---|---|---|
#18+
Alexey TominЕсть ли возможность решить проблему нормальным методом- задать для конкретной задачи максимальное число активных мапперов? Для первой версии хадупа простого решения точно нет, только косвенные через игры с размором блока, сплита и пр. Я сейчас быстро глянул как дела обстоят со второй версией, который yarn, похоже, что там все тоже самое. Т.о. со стороны хадупа эту проблему не решить. В Вашем случае, имхо, проще решить задачу штатными средствами Оракла (Oracle Resource Manager). ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 00:42 |
|
hadoop/yarn и ограничение числа активных мапов
|
|||
---|---|---|---|
#18+
Alexey Tomin, Попробуйте объяснить, чего вы хотите добиться, абстрагировавшись от своего собственного решения. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 01:56 |
|
hadoop/yarn и ограничение числа активных мапов
|
|||
---|---|---|---|
#18+
Alexander RyndinПопробуйте объяснить, чего вы хотите добиться, абстрагировавшись от своего собственного решения. Надо загрузить данные из hdfs в oracle. Несколько миллиардов строк. Не в 50 потоков (чтобы не грузить оракл, т.к. там критичные процессы). Не 1Г строк в одной транзакции (temp не резиновый). oraloader делает просто и тупо- каждая мапа- это одна транзакция, т.е. либо 50 потоков (если мапы помельче), либо 1Г в транзакции (если побольше). В обоих случаях админы шлют гневные письма- и хорошо, что дело на тестовом сервере происходит. Пока я делаю размер мапы так, чтобы загрузка шла в нужные мне 8 потоков, коммиты вставляю когда хочу, если ошибка (temp не хватило, к примеру), сам делаю повторные попытки (N штук), а повторный запуска задач запрещаю. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 09:52 |
|
hadoop/yarn и ограничение числа активных мапов
|
|||
---|---|---|---|
#18+
Alexey Tominoraloader делает просто и тупо- каждая мапа- это одна транзакция Ну конечно отдельная, это ж отдельная таска и отдельный коннект к базе. Подключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.11.2014, 12:50 |
|
hadoop/yarn и ограничение числа активных мапов
|
|||
---|---|---|---|
#18+
ApexПодключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди. Э... Можно ткнуть пальцем в доку? Что-то не очень понял... ... |
|||
:
Нравится:
Не нравится:
|
|||
24.11.2014, 10:07 |
|
hadoop/yarn и ограничение числа активных мапов
|
|||
---|---|---|---|
#18+
ApexAlexey Tominoraloader делает просто и тупо- каждая мапа- это одна транзакция Ну конечно отдельная, это ж отдельная таска и отдельный коннект к базе. Подключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди. Кстати, если это про ограничение числа сессий пользователя- то это не вариант, т.к. оракл выдаст ошибку подключения и hadoop сойдёт с ума от такого... ... |
|||
:
Нравится:
Не нравится:
|
|||
24.11.2014, 14:00 |
|
hadoop/yarn и ограничение числа активных мапов
|
|||
---|---|---|---|
#18+
Alexey TominApexпропущено... Ну конечно отдельная, это ж отдельная таска и отдельный коннект к базе. Подключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди. Кстати, если это про ограничение числа сессий пользователя Нет, это не про ограничения кол-ва сессий. Это скорее про ограничения одновременно используемых ресурсов. https://docs.oracle.com/database/121/NETAG/dispatcher.htm#NETAG012 Код: plaintext
Alexey Tominто это не вариант, т.к. оракл выдаст ошибку подключения и hadoop сойдёт с ума от такого ... Ничего с ним не случиться, просто таска будет долбиться 15 раз (по-умолчанию) потом завалит всю джобу. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.11.2014, 21:37 |
|
|
start [/forum/topic.php?fid=48&fpage=10&tid=1856864]: |
0ms |
get settings: |
10ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
68ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
50ms |
get tp. blocked users: |
2ms |
others: | 255ms |
total: | 420ms |
0 / 0 |