|
|
|
Зачем нужен спарк? :)
|
|||
|---|---|---|---|
|
#18+
Собссно вопрос такой, попросили написать простенькое приложение под спарк стриминг. ну там собирает какие то данные с броукера, неким образом перерабатываются и результаты скидываются в базу. Написал.. обычное стандалон, т.е. слушает порт брокера, собирает, выкладывает. окей. работает. потом говорят "запусти на кластере". хорошо, гружу спарк кластер поднимаю, через спарк-субмит тоже самое приложение. запускается, работает, собирает, выкладывает.. в самом спарк-стриминге в вебконсоли какие то циферки бегут. я подумал.. может я что-то неправильно сделал? открываю туториалы, смотрю примеры приложений - нет всё так же. внутри приложения описывают коннекшн к потоку, адрес-порт брокера. и т.п.. оно просто запускается в кластере и всё.. Что я делаю не так? зачем он тогда вообще нужен? Какую роль он выполняет, если приложение и так само может работать? у меня складывается ощущение, что я что-то сделал, оно даже работает, но я никак не въеду как оно работает. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2017, 11:37 |
|
||
|
Зачем нужен спарк? :)
|
|||
|---|---|---|---|
|
#18+
В чем вопрос решительно непонятно ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2017, 11:52 |
|
||
|
Зачем нужен спарк? :)
|
|||
|---|---|---|---|
|
#18+
Спарк это по факту имплементация лямбда архитектуры. Имеет смысл использовать если у вас реально МНОГО данных, из коробки обеспечивает отказоустойчивость и масштабируемость(ну во всяком случае так заявляется). Если у вас 30событий в секунду и меньше, заморачиваться не стоит на мой взгляд ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2017, 11:55 |
|
||
|
Зачем нужен спарк? :)
|
|||
|---|---|---|---|
|
#18+
natanabrahamjr, Приложение может само по себе работать в кластере? Само себя запустит на нодах и соберет результат? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2017, 11:57 |
|
||
|
Зачем нужен спарк? :)
|
|||
|---|---|---|---|
|
#18+
natanabrahamjrСобссно вопрос такой, попросили написать простенькое приложение под спарк стриминг. ну там собирает какие то данные с броукера, неким образом перерабатываются и результаты скидываются в базу. Написал.. обычное стандалон, т.е. слушает порт брокера, собирает, выкладывает. окей. работает. потом говорят "запусти на кластере". хорошо, гружу спарк кластер поднимаю, через спарк-субмит тоже самое приложение. запускается, работает, собирает, выкладывает.. в самом спарк-стриминге в вебконсоли какие то циферки бегут. я подумал.. может я что-то неправильно сделал? открываю туториалы, смотрю примеры приложений - нет всё так же. внутри приложения описывают коннекшн к потоку, адрес-порт брокера. и т.п.. оно просто запускается в кластере и всё.. Что я делаю не так? зачем он тогда вообще нужен? Какую роль он выполняет, если приложение и так само может работать? у меня складывается ощущение, что я что-то сделал, оно даже работает, но я никак не въеду как оно работает. Spark нужен когда данные не то что в ОЗУ а на диск не влазят, а работать с ними хочется как с простыми коллекциями, юзая все эти ваши filter/map/fold/reduce etc ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2017, 12:24 |
|
||
|
Зачем нужен спарк? :)
|
|||
|---|---|---|---|
|
#18+
Blazkowicznatanabrahamjr, Приложение может само по себе работать в кластере? Само себя запустит на нодах и соберет результат? ну ты можешь просто написать с подключенными спаркбиблиотеками обычное консольное джава приложение, которое будет работать само по себе как скажешь. а можно его же запустить через кластер )) я не понимаю в упор что дает запускание приложения через кластер. он что-то как то по-другому там исполняет? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2017, 12:52 |
|
||
|
Зачем нужен спарк? :)
|
|||
|---|---|---|---|
|
#18+
я решительно не понимаю какую функцию выполняет спарк стриминг, если внутри джарника ты сам указываешь ему куда (в моем случае - кафка) стучаться ( для получения данных. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2017, 14:20 |
|
||
|
Зачем нужен спарк? :)
|
|||
|---|---|---|---|
|
#18+
А можно вопрос: что такое спарк? И можно ли ссылку? я решительно не понимаю какую функцию выполняет спарк стриминг, если внутри джарника ты сам указываешь ему куда (в моем случае - кафка) стучаться ( для получения данных. Честно говоря, я этого не понимаю для 90% продвинутых технологий в последние лет 10 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2017, 16:35 |
|
||
|
Зачем нужен спарк? :)
|
|||
|---|---|---|---|
|
#18+
natanabrahamjr, Spark, насколько я понимаю учел недостатки Hadoop. А именно - ввел нормальные типы данных с человеческим лицом. Добавил Stream-style разработки. А также поддежку языка Scala. Все учебные примеры из книг по Spark смотрятся достаточно компактно в отличие от Хадуп, где надо тонну кода написать чтобы сделать простейший маппинг со сверткой. Вообще, чтобы понять зачем нужен такой стек технологий нужно как-то начать с основ. Я и сообщество не сможем рассказать тебе преимущество Spark потому-как преимущества познаются в сравнениях. Кроме того эти фреймворки создавались для задач с big-datа и если у тебя нет этих самых больших данных то нет никакого смысла юзать Спарк. Возможно тебе можно решить задачу просто на коллекциях в heap. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2017, 22:12 |
|
||
|
|

start [/forum/topic.php?fid=59&msg=39420693&tid=2123062]: |
0ms |
get settings: |
9ms |
get forum list: |
20ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
92ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
63ms |
get tp. blocked users: |
2ms |
| others: | 235ms |
| total: | 445ms |

| 0 / 0 |
