Что лучше: спарк или big query? / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Что лучше: спарк или big query?

11 сообщений из 11, страница 1 из 1

Что лучше: спарк или big query?

#40114787

Игорь Бобак

Гость

Вопрос в топике задан слишком просто, позвольте расшифровать.

Есть 250 миллионов строк за год, все это собирается с разных внешних информационных систем (занимаемся разработкой мобильного приложения). Только начали это делать, первую имплементацию пайплайна сделал на спарке, standalone кластер, мощная машинка с линуксом (64 ядра 256 гиг оперативки). Думаем что делать дальше, видим что данных скоро будет 10х от того, что есть.

Для экономии денег я рассматривал вариант построения on-premise кластера со спарком, который будет удовлетворять как задачи обработки, так и задачи кверяния этих данных.

Пришел новый человек в другой отдел, и очень агитирует за то, чтобы перейти на big query. С его слов, обработку можно делать не только спарком, но и с помощью Airflow+big query. На его прошлой работе была именно такая комбинация: были написаны джобины на пайтоне, которые оркестрировались в airflow, все это записывалось в big query, и потом эти данные он оттуда кверял. А еще он утверждает что это все очень дешево.

И у нас случился небольшой холливар, но по факту я человек трезвомыслящий: хочу понять, неужели с помощью airflow+big query можно технически заимплементить все настолько удобно и легко, как на спарке, и это все будет работать в scalable манере да еще и дешево?

Ну то есть, здесь есть хоть кто нибудь, кто пытался свою big data архитектуру строить на airflow + BQ?

...

Рейтинг:

0 / 0

25.11.2021, 11:30

| Ответить | Цитировать | Написать

Что лучше: спарк или big query?

#40114893

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

Игорь Бобак

Есть 250 миллионов строк за год

А где, собственно, "big data"-то?.. Это в лоб потянет даже Firebird в умелых руках.

...

Рейтинг:

0 / 0

25.11.2021, 14:59

| Ответить | Цитировать | Написать

Что лучше: спарк или big query?

#40114898

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

+

про Firebird не знаю, но я когда занимался авиаперелетами, не меньше из интернета вытягивал и обрабатывал на medium инстанце AWS (4 проца, 4 гига) и на своем офисном компе на SQLLite

данные о ценах на перелеты в мире, точной цифры уже не помню, но порядок был примерно такой же. Десятки/сотня миллионов записей в месяц. PostgreSQL по скорости не устраивал, т.ч. потом пришлось перейти на SQLLite )))
(смотрел и на no sql базы, но ничего не понравилось, а то что понравилось, было платное)

...

Рейтинг:

0 / 0

25.11.2021, 15:06

| Ответить | Цитировать | Написать

Что лучше: спарк или big query?

#40114953

Игорь Бобак

Гость

Пропустили часть предложения выше: "видим что данных скоро будет 10х от того, что есть".

"видим" = не "от фонаря думаем", а "тщательно подсчитали".
И это только в ближайшем будущем.

Во вторых, я не сказал ни слова о ширине строк (т.е. к-ве колонок). Их не десятки. Их пару сотен на старте, дальше приклеиваются.

Я понимаю что всегда есть желание сразу поосуждать того, кто начал тему, однако я смотрю сейчас на DAG visualization в спарке своих джобов, и что-то не верю, что какой-то постгрес бы столько обработал за такое краткое время на моих 64 ядрах.

Так что вопрос остается в силе.

...

Рейтинг:

0 / 0

25.11.2021, 17:02

| Ответить | Цитировать | Написать

Что лучше: спарк или big query?

#40115032

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Игорь Бобак,

имея компетенции в спарк идти в BQ особо смысла имхо нет. в BQ же платят даже за читающий квери, т.е. чем сложнее аналитика, тем внушительнее счета будут. где-то видел как народ офигивал от счетов, когда вырос в 10 раз.
ну и по питончику, простая обработка наверно ок, но если что посложней с данными, то питончик все в память потащит, любой джойн - все в памяти, там каталиста нет, который бы на партиции бы побил и частями бы процессил.

on-perm кластер это только хадуп сегодня, бесплатные кончились, покупать не дешевые лицензии на платформу переживающие не лучшие времена - не самый оптимльный выбор. spark в k8s похоже не скоро будет продакшен реди, плюс по сториджу в k8s все грустно.

учитывая компетенции в спарк, я бы смотрел на связку airflow + spark jobs + databriks, еще много в последнее время про snowflake говорят. они вроде сильно дешевле BQ выйдут.
если задача позволяет не держать кластер целый день поднятый, то очень дешево можно намутить в облаке.

...

Рейтинг:

0 / 0

25.11.2021, 22:19

| Ответить | Цитировать | Написать

Что лучше: спарк или big query?

#40115065

Игорь Бобак

Гость

H5N1,

спасибо за ответ.

C big query у меня еще есть одна непонятка на счет расчета цены, может Вы сможете подсказать?

они пишут что деньги берут за хранение (здесь все понятно) и за обработку, и даже приводят примеры как считается размер колонки в зависимости от типа.

вот только мне одно не понятно: если у меня случайно был написан кривой запрос, который вычитал 1000 строк из одной таблицы, 1000 строк из другой, и случайно сделал кроссджойн между ними (и вышло миллион строк), то с меня возьмут денег за 2000 строк, или же все-таки за миллион? (учитывая, что этот миллион возможно надо будет разместить в памяти, может по частям может нет - это уже не важно, но на одном из промежуточных этапов выполнения SQL будет сгенерировано миллион строк)

Я просто не понимаю что они считают: только то, что вычитают из диска, или же сумму всех промежуточных байт, которые были скушаны на всех промежуточных этапах выполнения sql запроса?

...

Рейтинг:

0 / 0

26.11.2021, 00:53

| Ответить | Цитировать | Написать

Что лучше: спарк или big query?

#40115114

vikkiv

Участник

Откуда: EU

Сообщения: 2 580

Рейтинг: 0 / 0

H5N1

...ну и по питончику, простая обработка наверно ок, но если что посложней с данными, то питончик все в память потащит, любой джойн - все в памяти, там каталиста нет, который бы на партиции бы побил и частями бы процессил...

смотря какая задача по структуре бизнес логики
на бриксах (PySpark) многое если хорошо подумать - начинает биться на более мелкие задачи,
хотя некоторые типы задач конечно не получается разделить
например у нас портфели каждого клиента считаются в своей джобе
соответственно каждая нода кластера тянет только свои данные, а не всю кучу,
результаты расчётов тоже не всегда обязательно собирать на драйвер,
а можно отдавать напрямую в базу по соответствующим кускам.

...

Рейтинг:

0 / 0

26.11.2021, 07:40

| Ответить | Цитировать | Написать

Что лучше: спарк или big query?

#40115131

H5N1

Участник

Откуда: Yo.! из "Сравнения субд"

Сообщения: 685

Рейтинг: 0 / 0

Игорь Бобак,

я не вникал, но полагаю идея там за процессор счет выставить.

vikkiv

так PySpark это спарк в первую очередь, понятно что каталист умеет в распределенные вычисления.

...

Рейтинг:

0 / 0

26.11.2021, 09:36

| Ответить | Цитировать | Написать

Что лучше: спарк или big query?

#40115136

бабушкин зайчик

Гость

Игорь Бобак

Во вторых, я не сказал ни слова о ширине строк (т.е. к-ве колонок). Их не десятки. Их пару сотен на старте, дальше приклеиваются.

а это никому не интересно, может там були одни... или инт4/инт2 = ~0.5 кб на строку, а это всего 120Гб в год
(по хорошему там инты и должны быть, в умелых руках, а текста минимум)
так что лучше оперировать сразу размером строки

возьмите на вооружение отлаженный приём: старые данные в архив, а выписки оттуда по запросу, который обрабатывается отдельно в бэкграунде и потом в кабинете появляется ссылка на PDF

...

Рейтинг:

0 / 0

26.11.2021, 09:46

| Ответить | Цитировать | Написать

Что лучше: спарк или big query?

#40115506

Дедушка

Участник

Откуда: Город трёх революций

Сообщения: 4 572

Рейтинг: 0 / 0

Игорь Бобак

они пишут что деньги берут за хранение (здесь все понятно) и за обработку, и даже приводят примеры как считается размер колонки в зависимости от типа.

вот только мне одно не понятно: если у меня случайно был написан кривой запрос, который вычитал 1000 строк из одной таблицы, 1000 строк из другой, и случайно сделал кроссджойн между ними (и вышло миллион строк), то с меня возьмут денег за 2000 строк, или же все-таки за миллион? (учитывая, что этот миллион возможно надо будет разместить в памяти, может по частям может нет - это уже не важно, но на одном из промежуточных этапов выполнения SQL будет сгенерировано миллион строк)

Я просто не понимаю что они считают: только то, что вычитают из диска, или же сумму всех промежуточных байт, которые были скушаны на всех промежуточных этапах выполнения sql запроса?

если у вас план "по запросу" то у вас ограниченный набор слотов на проект (выч. ресурсы), но плата только за считанное с диска (стоимость можно регулировать квотами).
если у вас план "фикс" то вы по сути покупаете выч. ресурсы и платите именно за них, без платы за чтение с диска

...

Рейтинг:

0 / 0

27.11.2021, 14:25

| Ответить | Цитировать | Написать

Что лучше: спарк или big query?

#40116581

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

у меня есть и бигквери и спарк кластер

Если вопрос не про деньги я тупо чтобы работало я за бигквеги (Запустил запрос получил резутат)
Если нужно по финансам то конечно спарк, но там нужно прям погружаться ( шафлы всякие смотреть, хеши солить)

...

Рейтинг:

0 / 0

02.12.2021, 00:19

| Ответить | Цитировать | Написать

11 сообщений из 11, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Что лучше: спарк или big query?

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&tid=1856513]:	0ms
get settings:	10ms
get forum list:	14ms
check forum access:	4ms
check topic access:	4ms
track hit:	50ms
get topic data:	14ms
get forum data:	3ms
get page messages:	51ms
get tp. blocked users:	2ms
others:	245ms

total:	397ms