powered by simpleCommunicator - 2.0.28     © 2024 Programmizd 02
Map
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / spark stream kafka debug
5 сообщений из 5, страница 1 из 1
spark stream kafka debug
    #40084259
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Салют!
Подскажите, кто, как дебажит стриминг из кафки?
Спасибо!
...
Рейтинг: 0 / 0
spark stream kafka debug
    #40084379
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

дебажить спарк ? даже на уровне идеи кажется сомнительной идея.
думаю подавляющее большинство тупо смотрит spark ui и логи.
...
Рейтинг: 0 / 0
spark stream kafka debug
    #40098834
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

дебагером. А как еще?

>дебажить спарк ? даже на уровне идеи кажется сомнительной идея.
>думаю подавляющее большинство тупо смотрит spark ui и логи.

Это еще почему? Программы для спакра не только дебажить, их еще и тестрировать можно (и нужно), юнит тестами.
...
Рейтинг: 0 / 0
spark stream kafka debug
    #40098867
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apex

Это еще почему? Программы для спакра не только дебажить, их еще и тестрировать можно (и нужно), юнит тестами.

юнит тесты не тестируют стриминг, они тестируют методы логики на совсем простеньких датасетах.
я полагаю тут вопрос был про стриминг и к примеру падающие экзекьютеры из-за перекоса прилетающих данных. а логику, да. можно и локально отладить/подебажить.
...
Рейтинг: 0 / 0
spark stream kafka debug
    #40099708
Фотография vikkiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ещё накину плюсов к предложению выше: spark ui и логи .
У нас стриминг из EventHub на DataBricks (PySpark)
из-за ограниченности операций над стриминговыми батчами датасетов приходилось вводить
дополнительные строки для вывода в логи (driver log , в самом notebook, или вообще отдельно в файл или базу)
в самом notebook есть состояние стрима (продолжительность батча, время начала, кол-во событий в нём)
если батч подвис (нода на кластере глючит {ganglia, gc в driver log, и пр.) - то сразу видно по аномалии времени исполнения.
на Spark UI операции тоже видны - состояние, продолжительность, ошибки (с полной java детализацией), планы исполнения
ну и стандартный Python-овский (в нашем случае вместо Scala) Try/Except тоже в некоторых местах для стриминга вполне справляется..
...
Рейтинг: 0 / 0
5 сообщений из 5, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / spark stream kafka debug
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]