powered by simpleCommunicator - 2.0.19     © 2024 Programmizd 02
Map
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / вопросы по spark
5 сообщений из 5, страница 1 из 1
вопросы по spark
    #39995045
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
пишите, будем отвечать
...
Рейтинг: 0 / 0
вопросы по spark
    #40085754
valdemar_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Имеется кластер 1тб ОЗУ, 6тб свободного места пытаюсь соединить две таблички по 1тб и приземлить. Уровень репликации 1. Во время выполнения запроса когда на HDFS остается места ~2тб ноды начинают падать и запрос может висеть 15часов и не выполняется приходится делать kill джобы. Проблема связана с ресурсами ? или есть параметры, которые необходимо использовать? Куда копать?
сам результат запроса в итоге должен получится не более 2тб.
...
Рейтинг: 0 / 0
вопросы по spark
    #40085782
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
valdemar_ru
Имеется кластер 1тб ОЗУ, 6тб свободного места пытаюсь соединить две таблички по 1тб и приземлить. Уровень репликации 1. Во время выполнения запроса когда на HDFS остается места ~2тб ноды начинают падать и запрос может висеть 15часов и не выполняется приходится делать kill джобы. Проблема связана с ресурсами ? или есть параметры, которые необходимо использовать? Куда копать?
сам результат запроса в итоге должен получится не более 2тб.

начать со спарк UI, там видны стейджи, таски. вероятно что-то падает и рестартится. потом выкачивать лог драйвера и смотреть причину падений тасков
...
Рейтинг: 0 / 0
вопросы по spark
    #40085843
valdemar_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
H5N1
valdemar_ru
Имеется кластер 1тб ОЗУ, 6тб свободного места пытаюсь соединить две таблички по 1тб и приземлить. Уровень репликации 1. Во время выполнения запроса когда на HDFS остается места ~2тб ноды начинают падать и запрос может висеть 15часов и не выполняется приходится делать kill джобы. Проблема связана с ресурсами ? или есть параметры, которые необходимо использовать? Куда копать?
сам результат запроса в итоге должен получится не более 2тб.

начать со спарк UI, там видны стейджи, таски. вероятно что-то падает и рестартится. потом выкачивать лог драйвера и смотреть причину падений тасков


не подскажете, где можно найти лог драйвера ?
...
Рейтинг: 0 / 0
вопросы по spark
    #40085899
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
valdemar_ru

не подскажете, где можно найти лог драйвера ?


полагаю вы стартуете спарк в режиме yarn-cluster, тогда драйвер программа спарка стартует где-то на кластере. первый вариант когда стартуете джобу spark-submit пишет урл джобы, по этому урлу выйти на экран джоба.
второй вариант смотреть в админке вашего хадупа (cloudera manager или ambari ) yarn applications. должен быть список yarn джобов, что бежит на кластере. найти ваш джоб со спарком



справа внизу ссылка log, там stdout смотреть, обычно он огромный и схлопнут. надо тыкать на "Click here for the full log."
...
Рейтинг: 0 / 0
5 сообщений из 5, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / вопросы по spark
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали тему (0):
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]