Коллеги, вопрос по экосистеме спарк. Прошу помочь. / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Коллеги, вопрос по экосистеме спарк. Прошу помочь.

5 сообщений из 5, страница 1 из 1

Коллеги, вопрос по экосистеме спарк. Прошу помочь.

#38852470

kT_________

Участник

Сообщения: 281

Рейтинг: 0 / 0

Коллеги, добрый день и с прошедшими праздниками!

Прошу помочь.
Встал вопрос по архитектуре и интеграции приложения. В основе решено использовать кластер на CDH основная задача которого - предоставление HDFS для спарка. И на этом я бы и остановился, но есть ряд вопросов, прошу Вас поделиться опытом.

1. Правильно ли я понимаю что поднимая в кэш спарка данные (например плоские файлы): sc.textFile(Filename).cache();
эти данные будут расшарены между нодами в их ОЗУ, и основной профит применения CDH будет в том что не потребуется этот Filename выкладывать локально на каждую ноду?

2. Так же интересно как поведет себя спарк в случае падения нескольких нод, в спарке требуется разбивать на партиции данные между нодами? , что бы существенно ускорить процесс обработки (что бы не хранить ВСЁ на каждой ноде), если так.. то интересно что будет если выпадут все ноды хранящие одну и ту же часть данных.

* 1 и 2 вопросы - можно ли обойтись без HDFS одним спарком и при этом не потерять в скорости обработки.
как я понимаю нет, т.к. спарк через ярн цепляется к узлам и всё волшебство проходит именно в хадупном кластере.
правда я слышал что есть фичи в спарк которые с одной ноды могут раскидать файл по остальным, и если так, то значит можно эти данные партиционировать между нодами и т.о. обрабатывать быстрее, при этом не используя HDFS? прошу прокомментировать по п.1 и п.2

3. Вопрос по индексированию и всему что с ним связано (ребалансы, реорги, ранстаты) Есть несколько неподтвержденных историй успеха использования ЭластикСрч + Спарк, причем функция ЭластикСрч индексация, а значит скорость обработки. Подскажите в чем основная причина прикручивать ЭластикСрч к спарку.
И как спарк работает с индексами? ПОднимая в кэш файл на десятки и сотни гигов, чем будет обеспечен быстрый поиск?
(ИЛИ ЭТО КАЖДЫЙ РАЗ ФУЛЛСКАН, но за счет кластеризации и того что слой вычисления и хранения максимально близки - работает недолго)

4. Тачйон (tachyon) - верно ли я понимаю что он уже в дистрибе спарка, отдельная установка не требуется?

5. Кафка - месседжинг для кластера, требуется если в ит-ландшафте уже используется MQ, если нет, подскажите для интеграции чего с чем его лучше использовать.

6. Общий вопрос: имея несколько десятков плоских файлов (от 2Гб до 40Гб), взаимосвязанных между собой, (но для 90% случаев поиска потребуются алгоритмы нечеткого поиска, что бы найти связи) какой стек технологий Вы стали бы использовать с учетом того что спарк уже не убрать)))

Спасибо!

...

Рейтинг:

0 / 0

12.01.2015, 17:23

| Ответить | Цитировать | Написать

Коллеги, вопрос по экосистеме спарк. Прошу помочь.

#38852669

kT_________

Участник

Сообщения: 281

Рейтинг: 0 / 0

по п.5 - ясно. Кафка для заливки данных в HDFS, т.е. из спарк_стрим в кафка и в HDFS, думаю что бы не рестартовать и не тянуть инкремент каждый раз. и всё же про Кафку хотелось бы услышать. Интересно.. Кафка нужна только потому что там интеграция с хадуп из коробки + ноды для Кафки можно до бесконечности наращивать, так?

...

Рейтинг:

0 / 0

13.01.2015, 00:12

| Ответить | Цитировать | Написать

Коллеги, вопрос по экосистеме спарк. Прошу помочь.

#38855264

kT_________

Участник

Сообщения: 281

Рейтинг: 0 / 0

SHARK:шарк остановлен, спарк использует sparkSQL без хранилища мета данных на 2014. (отмечу импалу реализованную на С++)

...

Рейтинг:

0 / 0

15.01.2015, 14:51

| Ответить | Цитировать | Написать

Коллеги, вопрос по экосистеме спарк. Прошу помочь.

#38876233

SciDB

Гость

Очень много путаницы, спарк очень интересная штука, советую почитать основную статью и документацию (она не супер, но что делать).

А так:

- Если есть HDFS уже, можно спокойно на него натравливать Спарк, он будет таскать куски файлов с тех же нод, где будут воркеры.
- Спарк изначально работает параллельно и с партициями. После каждой операции можно заново пере-разбрасывать данные, если хочется.
- Без HDFS тоже можно обойтись - это будет быстрее даже, чем с ним, но зачем, если уже все настроено
- При падении нодов теряются RDD, которые на них считались - они могут пересчитаться на другой ноде. Если нельзя достучаться до данных - это уже другой вопрос, опять же, Спарк своего хранилища не имеет, это не его проблемы.
- Что будет если выпадут все ноды? Будет плохо. Но обычно такого наверное не бывает?
- Насчет индексов и поиска - Спарк не для этого сделан. Если надо быстро чего-то искать, лучше это делать не Спарком. Им надо перелопачивать большие объемы.
- Интеграция с другими системами - Спарк с огромным количеством систем интегрируется. ES для индексации? Наверное кто-то очень любит ES и с этим ничего не сделаешь.
- Tachyon не тыкал, может и есть в дистрибутиве, может надо отдельно ставить. Но если надо долго лопатить, то изначально закашированные данные мало чего дадут.
- Если Kafka используется и надо из нее таскать в Спарк, то надо таскать с Спарк.
- На последний вопрос сложно ответить без подробностей, что за файлы, что за связи, какой нечеткий поиск. По в общем - Спарк для анализа, расчета, батч-заданий, но не для поиска.

...

Рейтинг:

0 / 0

10.02.2015, 17:36

| Ответить | Цитировать | Написать

Коллеги, вопрос по экосистеме спарк. Прошу помочь.

#38888886

kT_________

Участник

Сообщения: 281

Рейтинг: 0 / 0

SciDB,

- Насчет индексов и поиска - Спарк не для этого сделан. Если надо быстро чего-то искать, лучше это делать не Спарком. Им надо перелопачивать большие объемы.

только про это хотел спросить.
как я понимаю имея 100500 нод и рзмазанные ровным слоем по ним сырые данные, процесс построения индексов займет совсем не много времени (не в пример большинству БД), при этом мы их сохраняем, т.к. результат вычисления этого RDD сохраняем в ОЗУ.
(да, понятно, что если что.. потребуется заново перестраивать каждый раз, но! поиск будет бодр и свеж)

Не???

...

Рейтинг:

0 / 0

25.02.2015, 20:03

| Ответить | Цитировать | Написать

5 сообщений из 5, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Коллеги, вопрос по экосистеме спарк. Прошу помочь.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&fpage=9&tid=1856849]:	0ms
get settings:	11ms
get forum list:	14ms
check forum access:	4ms
check topic access:	4ms
track hit:	37ms
get topic data:	11ms
get forum data:	3ms
get page messages:	77ms
get tp. blocked users:	2ms
others:	282ms

total:	445ms