powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Профайлинг хадуп-кластера
6 сообщений из 6, страница 1 из 1
Профайлинг хадуп-кластера
    #38994176
Всем добрый день.

Кто знает как сделать профайлинг всего выполняющегося mapreduce/spark и другого java-кода всех вместе взятых java-процессов в кластере?

Имеется в виду следующее (объясняю на примере): если у нас обычное java-приложение, мы запустим yourkit profiler, посмотрим на дерево вызовов методов и % процессорного времени, занимаемого методом. А дальше можем найти тормоз, оптимизируя это место.

Когда мы написали mapreduce job, запустили в кластере, и видим, что результат тупит, мы бы тоже хотели посмотреть на то что и где тупит - какой кусок кода. Может быть что наш map и редьюс выполняется 10% времени, а 90% - Фреймворк (и ничего не поделаешь), а может 90% CPU жрет наш map, в котором неоптимально сделан поиск подстрочки в строчке. Вот было бы хорошо, если бы существовал аналог yourkit, который бы inject-ился во все java-процессы, собирал статистику и писал куда-то. А потом чем-то просмотрели и увидели тормоза.

Вопрос: есть такое?

Прошу не критиковать подход, типа "ты что, не понимаешь что это тормознет выполнение всего?" - понимаю; и понимаю что запуск такой штуки надо делать на тестовом кластере, или с согласованием с заказчиком. Вопрос сейчас стоит "а есть ли такая штука?"

Всем, кто что-то знает по этому вопросу - буду очень признателен за любую информацию.
...
Рейтинг: 0 / 0
Профайлинг хадуп-кластера
    #39010804
Вот уж не думал, что буду сам отвечать на свой же вопрос.

Нашел два подхода:
http://blog.factual.com/profiling-hadoop-jobs-with-riemann
и
https://codeascraft.com/2015/01/14/introducing-statsd-jvm-profiler-a-jvm-profiler-for-hadoop/
+ https://codeascraft.com/2015/05/12/four-months-of-statsd-jvm-profiler-a-retrospective/


Первый удалось воплотить - было сложно в плане настройки. Riemann не понравился потому что нет тотальной статистики в виде flame chart.

Пожалел, что пошел первым путем, поэтому двигаюсь по второму пути - statsd.
Перспективы намного лучше, поскольку есть шанс получить вот это
http://www.brendangregg.com/FlameGraphs/cpu-bash-flamegraph.svg
(детально описано тут
YouTube Video
...
Рейтинг: 0 / 0
Профайлинг хадуп-кластера
    #39023387
И вот наконец результат моих трудов:
http://ihorbobak.com/index.php/2015/08/05/cluster-profiling/
буду благодарен за фидбеки.
...
Рейтинг: 0 / 0
Профайлинг хадуп-кластера
    #39104819
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь Бобак,

Супер, плохо, что все на английском (
...
Рейтинг: 0 / 0
Профайлинг хадуп-кластера
    #39104942
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkИгорь Бобак,

Супер, плохо, что все на английском (

а на каком должно быть?

apache -> апачьЁ
profiler -> профайлер
...
...
Рейтинг: 0 / 0
Профайлинг хадуп-кластера
    #39109456
fleandr
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хм можно прилепить -Xprof, дальше собрать логи скриптиком и обработать
...
Рейтинг: 0 / 0
6 сообщений из 6, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Профайлинг хадуп-кластера
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]