Гость
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / spark stream kafka debug / 5 сообщений из 5, страница 1 из 1
15.07.2021, 21:12
    #40084259
мигель1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
spark stream kafka debug
Салют!
Подскажите, кто, как дебажит стриминг из кафки?
Спасибо!
...
Рейтинг: 0 / 0
16.07.2021, 17:25
    #40084379
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
spark stream kafka debug
мигель1,

дебажить спарк ? даже на уровне идеи кажется сомнительной идея.
думаю подавляющее большинство тупо смотрит spark ui и логи.
...
Рейтинг: 0 / 0
21.09.2021, 05:23
    #40098834
Apex
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
spark stream kafka debug
мигель1,

дебагером. А как еще?

>дебажить спарк ? даже на уровне идеи кажется сомнительной идея.
>думаю подавляющее большинство тупо смотрит spark ui и логи.

Это еще почему? Программы для спакра не только дебажить, их еще и тестрировать можно (и нужно), юнит тестами.
...
Рейтинг: 0 / 0
21.09.2021, 08:38
    #40098867
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
spark stream kafka debug
Apex

Это еще почему? Программы для спакра не только дебажить, их еще и тестрировать можно (и нужно), юнит тестами.

юнит тесты не тестируют стриминг, они тестируют методы логики на совсем простеньких датасетах.
я полагаю тут вопрос был про стриминг и к примеру падающие экзекьютеры из-за перекоса прилетающих данных. а логику, да. можно и локально отладить/подебажить.
...
Рейтинг: 0 / 0
24.09.2021, 11:43
    #40099708
vikkiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
spark stream kafka debug
Ещё накину плюсов к предложению выше: spark ui и логи .
У нас стриминг из EventHub на DataBricks (PySpark)
из-за ограниченности операций над стриминговыми батчами датасетов приходилось вводить
дополнительные строки для вывода в логи (driver log , в самом notebook, или вообще отдельно в файл или базу)
в самом notebook есть состояние стрима (продолжительность батча, время начала, кол-во событий в нём)
если батч подвис (нода на кластере глючит {ganglia, gc в driver log, и пр.) - то сразу видно по аномалии времени исполнения.
на Spark UI операции тоже видны - состояние, продолжительность, ошибки (с полной java детализацией), планы исполнения
ну и стандартный Python-овский (в нашем случае вместо Scala) Try/Except тоже в некоторых местах для стриминга вполне справляется..
...
Рейтинг: 0 / 0
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / spark stream kafka debug / 5 сообщений из 5, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]