powered by simpleCommunicator - 2.0.48     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / hadoop/yarn и ограничение числа активных мапов
8 сообщений из 8, страница 1 из 1
hadoop/yarn и ограничение числа активных мапов
    #38806113
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Добрый день!

Есть сервер (2.3.0-cdh5.1.2).

Есть кучка мапперов. Например 100.

Есть job'а, включающая в себя много (10^6..10^8) логических частей. Это загрузка данных в oracle, количество частей определяется размером транзакции.

Нужно, чтобы на YARN'е выполнялось сразу не 100 задач (oracle просаживается, что недопустимо), а некое заданное число. Например 10.

Какие есть пока решения.
1. Временно задать кластеру 10 мапперов. Плохо, т.к. получается, что кластер ломается ради выгрузки данных.

2. Сделать размер задачи таким, чтобы задач было 10. Плохо то, что либо размер транзакции становится огромным (до миллиарда вставок), либо делаются промежуточные коммиты, что противоречит идеологии hadoop'а - если вставка поперхулась (попадается нехватка rollback-сегмента), то рестартует вся мапа и данные дублируются. Все индексы на время загрузки отключены- иначе оракл, опять же, жалуется админам на тяжелую жизнь, а там высоко-приоритетные задачи...

Есть ли возможность решить проблему нормальным методом- задать для конкретной задачи максимальное число активных мапперов?

--
Алексей.
...
Рейтинг: 0 / 0
hadoop/yarn и ограничение числа активных мапов
    #38811328
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominЕсть ли возможность решить проблему нормальным методом- задать для конкретной задачи максимальное число активных мапперов?


Для первой версии хадупа простого решения точно нет, только косвенные через игры с размором блока, сплита и пр. Я сейчас быстро глянул как дела обстоят со второй версией, который yarn, похоже, что там все тоже самое.
Т.о. со стороны хадупа эту проблему не решить. В Вашем случае, имхо, проще решить задачу штатными средствами Оракла (Oracle Resource Manager).
...
Рейтинг: 0 / 0
hadoop/yarn и ограничение числа активных мапов
    #38811345
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tomin,

Попробуйте объяснить, чего вы хотите добиться, абстрагировавшись от своего собственного решения.
...
Рейтинг: 0 / 0
hadoop/yarn и ограничение числа активных мапов
    #38811474
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinПопробуйте объяснить, чего вы хотите добиться, абстрагировавшись от своего собственного решения.

Надо загрузить данные из hdfs в oracle. Несколько миллиардов строк.
Не в 50 потоков (чтобы не грузить оракл, т.к. там критичные процессы).
Не 1Г строк в одной транзакции (temp не резиновый).

oraloader делает просто и тупо- каждая мапа- это одна транзакция, т.е. либо 50 потоков (если мапы помельче), либо 1Г в транзакции (если побольше). В обоих случаях админы шлют гневные письма- и хорошо, что дело на тестовом сервере происходит.

Пока я делаю размер мапы так, чтобы загрузка шла в нужные мне 8 потоков, коммиты вставляю когда хочу, если ошибка (temp не хватило, к примеру), сам делаю повторные попытки (N штук), а повторный запуска задач запрещаю.
...
Рейтинг: 0 / 0
hadoop/yarn и ограничение числа активных мапов
    #38813986
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominoraloader делает просто и тупо- каждая мапа- это одна транзакция
Ну конечно отдельная, это ж отдельная таска и отдельный коннект к базе. Подключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди.
...
Рейтинг: 0 / 0
hadoop/yarn и ограничение числа активных мапов
    #38814805
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexПодключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди.

Э...
Можно ткнуть пальцем в доку? Что-то не очень понял...
...
Рейтинг: 0 / 0
hadoop/yarn и ограничение числа активных мапов
    #38815121
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexAlexey Tominoraloader делает просто и тупо- каждая мапа- это одна транзакция
Ну конечно отдельная, это ж отдельная таска и отдельный коннект к базе. Подключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди.

Кстати, если это про ограничение числа сессий пользователя- то это не вариант, т.к. оракл выдаст ошибку подключения и hadoop сойдёт с ума от такого...
...
Рейтинг: 0 / 0
hadoop/yarn и ограничение числа активных мапов
    #38815596
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominApexпропущено...

Ну конечно отдельная, это ж отдельная таска и отдельный коннект к базе. Подключайте этот лоадер через шаред сервера, тогда по идее получится что-то вроде очереди.

Кстати, если это про ограничение числа сессий пользователя
Нет, это не про ограничения кол-ва сессий. Это скорее про ограничения одновременно используемых ресурсов.
https://docs.oracle.com/database/121/NETAG/dispatcher.htm#NETAG012

Код: plaintext
When client load causes a strain on memory and other system resources, database administrators can alleviate load issues by starting shared server resources. The shared server architecture enables a database server to allow many client processes to share very few server processes, so the number of users that can be supported is increased.  With the shared server architecture, many client processes connect to a dispatcher. The dispatcher directs multiple incoming network session requests to a common queue. An idle shared server process from a shared pool of server processes picks up a request from the queue. This means a small pool of server processes can serve a large number of clients.  This is useful when a system is overloaded or has limited memory.
В принципе у вас именно такая ситуация.


Alexey Tominто это не вариант, т.к. оракл выдаст ошибку подключения и hadoop сойдёт с ума от такого ...
Ничего с ним не случиться, просто таска будет долбиться 15 раз (по-умолчанию) потом завалит всю джобу.
...
Рейтинг: 0 / 0
8 сообщений из 8, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / hadoop/yarn и ограничение числа активных мапов
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]