Гость
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / hadoop/yarn и ограничение числа активных мапов / 8 сообщений из 8, страница 1 из 1
14.11.2014, 12:35
    #38806113
Alexey Tomin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
hadoop/yarn и ограничение числа активных мапов
Добрый день!

Есть сервер (2.3.0-cdh5.1.2).

Есть кучка мапперов. Например 100.

Есть job'а, включающая в себя много (10^6..10^8) логических частей. Это загрузка данных в oracle, количество частей определяется размером транзакции.

Нужно, чтобы на YARN'е выполнялось сразу не 100 задач (oracle просаживается, что недопустимо), а некое заданное число. Например 10.

Какие есть пока решения.
1. Временно задать кластеру 10 мапперов. Плохо, т.к. получается, что кластер ломается ради выгрузки данных.

2. Сделать размер задачи таким, чтобы задач было 10. Плохо то, что либо размер транзакции становится огромным (до миллиарда вставок), либо делаются промежуточные коммиты, что противоречит идеологии hadoop'а - если вставка поперхулась (попадается нехватка rollback-сегмента), то рестартует вся мапа и данные дублируются. Все индексы на время загрузки отключены- иначе оракл, опять же, жалуется админам на тяжелую жизнь, а там высоко-приоритетные задачи...

Есть ли возможность решить проблему нормальным методом- задать для конкретной задачи максимальное число активных мапперов?

--
Алексей.
...
Рейтинг: 0 / 0
20.11.2014, 00:42
    #38811328
Apex
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
hadoop/yarn и ограничение числа активных мапов
Alexey TominЕсть ли возможность решить проблему нормальным методом- задать для конкретной задачи максимальное число активных мапперов?


Для первой версии хадупа простого решения точно нет, только косвенные через игры с размором блока, сплита и пр. Я сейчас быстро глянул как дела обстоят со второй версией, который yarn, похоже, что там все тоже самое.
Т.о. со стороны хадупа эту проблему не решить. В Вашем случае, имхо, проще решить задачу штатными средствами Оракла (Oracle Resource Manager).
...
Рейтинг: 0 / 0
20.11.2014, 01:56
    #38811345
Alexander Ryndin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
hadoop/yarn и ограничение числа активных мапов
Alexey Tomin,

Попробуйте объяснить, чего вы хотите добиться, абстрагировавшись от своего собственного решения.
...
Рейтинг: 0 / 0
20.11.2014, 09:52
    #38811474
Alexey Tomin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
hadoop/yarn и ограничение числа активных мапов
Alexander RyndinПопробуйте объяснить, чего вы хотите добиться, абстрагировавшись от своего собственного решения.

Надо загрузить данные из hdfs в oracle. Несколько миллиардов строк.
Не в 50 потоков (чтобы не грузить оракл, т.к. там критичные процессы).
Не 1Г строк в одной транзакции (temp не резиновый).

oraloader делает просто и тупо- каждая мапа- это одна транзакция, т.е. либо 50 потоков (если мапы помельче), либо 1Г в транзакции (если побольше). В обоих случаях админы шлют гневные письма- и хорошо, что дело на тестовом сервере происходит.

Пока я делаю размер мапы так, чтобы загрузка шла в нужные мне 8 потоков, коммиты вставляю когда хочу, если ошибка (temp не хватило, к примеру), сам делаю повторные попытки (N штук), а повторный запуска задач запрещаю.
...
Рейтинг: 0 / 0
22.11.2014, 12:50
    #38813986
Apex
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
hadoop/yarn и ограничение числа активных мапов
Alexey Tominoraloader делает просто и тупо- каждая мапа- это одна транзакция
Ну конечно отдельная, это ж отдельная таска и отдельный коннект к базе. Подключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди.
...
Рейтинг: 0 / 0
24.11.2014, 10:07
    #38814805
Alexey Tomin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
hadoop/yarn и ограничение числа активных мапов
ApexПодключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди.

Э...
Можно ткнуть пальцем в доку? Что-то не очень понял...
...
Рейтинг: 0 / 0
24.11.2014, 14:00
    #38815121
Alexey Tomin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
hadoop/yarn и ограничение числа активных мапов
ApexAlexey Tominoraloader делает просто и тупо- каждая мапа- это одна транзакция
Ну конечно отдельная, это ж отдельная таска и отдельный коннект к базе. Подключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди.

Кстати, если это про ограничение числа сессий пользователя- то это не вариант, т.к. оракл выдаст ошибку подключения и hadoop сойдёт с ума от такого...
...
Рейтинг: 0 / 0
24.11.2014, 21:37
    #38815596
Apex
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
hadoop/yarn и ограничение числа активных мапов
Alexey TominApexпропущено...

Ну конечно отдельная, это ж отдельная таска и отдельный коннект к базе. Подключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди.

Кстати, если это про ограничение числа сессий пользователя
Нет, это не про ограничения кол-ва сессий. Это скорее про ограничения одновременно используемых ресурсов.
https://docs.oracle.com/database/121/NETAG/dispatcher.htm#NETAG012

Код: plaintext
When client load causes a strain on memory and other system resources, database administrators can alleviate load issues by starting shared server resources. The shared server architecture enables a database server to allow many client processes to share very few server processes, so the number of users that can be supported is increased.  With the shared server architecture, many client processes connect to a dispatcher. The dispatcher directs multiple incoming network session requests to a common queue. An idle shared server process from a shared pool of server processes picks up a request from the queue. This means a small pool of server processes can serve a large number of clients.  This is useful when a system is overloaded or has limited memory.
В принципе у вас именно такая ситуация.


Alexey Tominто это не вариант, т.к. оракл выдаст ошибку подключения и hadoop сойдёт с ума от такого ...
Ничего с ним не случиться, просто таска будет долбиться 15 раз (по-умолчанию) потом завалит всю джобу.
...
Рейтинг: 0 / 0
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / hadoop/yarn и ограничение числа активных мапов / 8 сообщений из 8, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]