powered by simpleCommunicator - 2.0.18     © 2024 Programmizd 02
Map
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Что лучше: спарк или big query?
11 сообщений из 11, страница 1 из 1
Что лучше: спарк или big query?
    #40114787
Вопрос в топике задан слишком просто, позвольте расшифровать.

Есть 250 миллионов строк за год, все это собирается с разных внешних информационных систем (занимаемся разработкой мобильного приложения). Только начали это делать, первую имплементацию пайплайна сделал на спарке, standalone кластер, мощная машинка с линуксом (64 ядра 256 гиг оперативки). Думаем что делать дальше, видим что данных скоро будет 10х от того, что есть.

Для экономии денег я рассматривал вариант построения on-premise кластера со спарком, который будет удовлетворять как задачи обработки, так и задачи кверяния этих данных.

Пришел новый человек в другой отдел, и очень агитирует за то, чтобы перейти на big query. С его слов, обработку можно делать не только спарком, но и с помощью Airflow+big query. На его прошлой работе была именно такая комбинация: были написаны джобины на пайтоне, которые оркестрировались в airflow, все это записывалось в big query, и потом эти данные он оттуда кверял. А еще он утверждает что это все очень дешево.

И у нас случился небольшой холливар, но по факту я человек трезвомыслящий: хочу понять, неужели с помощью airflow+big query можно технически заимплементить все настолько удобно и легко, как на спарке, и это все будет работать в scalable манере да еще и дешево?

Ну то есть, здесь есть хоть кто нибудь, кто пытался свою big data архитектуру строить на airflow + BQ?
...
Рейтинг: 0 / 0
Что лучше: спарк или big query?
    #40114893
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь Бобак
Есть 250 миллионов строк за год

А где, собственно, "big data"-то?.. Это в лоб потянет даже Firebird в умелых руках.
...
Рейтинг: 0 / 0
Что лучше: спарк или big query?
    #40114898
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
+

про Firebird не знаю, но я когда занимался авиаперелетами, не меньше из интернета вытягивал и обрабатывал на medium инстанце AWS (4 проца, 4 гига) и на своем офисном компе на SQLLite

данные о ценах на перелеты в мире, точной цифры уже не помню, но порядок был примерно такой же. Десятки/сотня миллионов записей в месяц. PostgreSQL по скорости не устраивал, т.ч. потом пришлось перейти на SQLLite )))
(смотрел и на no sql базы, но ничего не понравилось, а то что понравилось, было платное)
...
Рейтинг: 0 / 0
Что лучше: спарк или big query?
    #40114953
Пропустили часть предложения выше: "видим что данных скоро будет 10х от того, что есть".

"видим" = не "от фонаря думаем", а "тщательно подсчитали".
И это только в ближайшем будущем.

Во вторых, я не сказал ни слова о ширине строк (т.е. к-ве колонок). Их не десятки. Их пару сотен на старте, дальше приклеиваются.

Я понимаю что всегда есть желание сразу поосуждать того, кто начал тему, однако я смотрю сейчас на DAG visualization в спарке своих джобов, и что-то не верю, что какой-то постгрес бы столько обработал за такое краткое время на моих 64 ядрах.

Так что вопрос остается в силе.
...
Рейтинг: 0 / 0
Что лучше: спарк или big query?
    #40115032
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь Бобак,

имея компетенции в спарк идти в BQ особо смысла имхо нет. в BQ же платят даже за читающий квери, т.е. чем сложнее аналитика, тем внушительнее счета будут. где-то видел как народ офигивал от счетов, когда вырос в 10 раз.
ну и по питончику, простая обработка наверно ок, но если что посложней с данными, то питончик все в память потащит, любой джойн - все в памяти, там каталиста нет, который бы на партиции бы побил и частями бы процессил.

on-perm кластер это только хадуп сегодня, бесплатные кончились, покупать не дешевые лицензии на платформу переживающие не лучшие времена - не самый оптимльный выбор. spark в k8s похоже не скоро будет продакшен реди, плюс по сториджу в k8s все грустно.

учитывая компетенции в спарк, я бы смотрел на связку airflow + spark jobs + databriks, еще много в последнее время про snowflake говорят. они вроде сильно дешевле BQ выйдут.
если задача позволяет не держать кластер целый день поднятый, то очень дешево можно намутить в облаке.
...
Рейтинг: 0 / 0
Что лучше: спарк или big query?
    #40115065
H5N1,

спасибо за ответ.

C big query у меня еще есть одна непонятка на счет расчета цены, может Вы сможете подсказать?

они пишут что деньги берут за хранение (здесь все понятно) и за обработку, и даже приводят примеры как считается размер колонки в зависимости от типа.

вот только мне одно не понятно: если у меня случайно был написан кривой запрос, который вычитал 1000 строк из одной таблицы, 1000 строк из другой, и случайно сделал кроссджойн между ними (и вышло миллион строк), то с меня возьмут денег за 2000 строк, или же все-таки за миллион? (учитывая, что этот миллион возможно надо будет разместить в памяти, может по частям может нет - это уже не важно, но на одном из промежуточных этапов выполнения SQL будет сгенерировано миллион строк)

Я просто не понимаю что они считают: только то, что вычитают из диска, или же сумму всех промежуточных байт, которые были скушаны на всех промежуточных этапах выполнения sql запроса?
...
Рейтинг: 0 / 0
Что лучше: спарк или big query?
    #40115114
Фотография vikkiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1
...ну и по питончику, простая обработка наверно ок, но если что посложней с данными, то питончик все в память потащит, любой джойн - все в памяти, там каталиста нет, который бы на партиции бы побил и частями бы процессил...

смотря какая задача по структуре бизнес логики
на бриксах (PySpark) многое если хорошо подумать - начинает биться на более мелкие задачи,
хотя некоторые типы задач конечно не получается разделить
например у нас портфели каждого клиента считаются в своей джобе
соответственно каждая нода кластера тянет только свои данные, а не всю кучу,
результаты расчётов тоже не всегда обязательно собирать на драйвер,
а можно отдавать напрямую в базу по соответствующим кускам.
...
Рейтинг: 0 / 0
Что лучше: спарк или big query?
    #40115131
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь Бобак,

я не вникал, но полагаю идея там за процессор счет выставить.


vikkiv

смотря какая задача по структуре бизнес логики
на бриксах (PySpark) многое если хорошо подумать - начинает биться на более мелкие задачи,
хотя некоторые типы задач конечно не получается разделить
например у нас портфели каждого клиента считаются в своей джобе
соответственно каждая нода кластера тянет только свои данные, а не всю кучу,
результаты расчётов тоже не всегда обязательно собирать на драйвер,
а можно отдавать напрямую в базу по соответствующим кускам.

так PySpark это спарк в первую очередь, понятно что каталист умеет в распределенные вычисления.
...
Рейтинг: 0 / 0
Что лучше: спарк или big query?
    #40115136
Игорь Бобак
Во вторых, я не сказал ни слова о ширине строк (т.е. к-ве колонок). Их не десятки. Их пару сотен на старте, дальше приклеиваются.

а это никому не интересно, может там були одни... или инт4/инт2 = ~0.5 кб на строку, а это всего 120Гб в год
(по хорошему там инты и должны быть, в умелых руках, а текста минимум)
так что лучше оперировать сразу размером строки

возьмите на вооружение отлаженный приём: старые данные в архив, а выписки оттуда по запросу, который обрабатывается отдельно в бэкграунде и потом в кабинете появляется ссылка на PDF
...
Рейтинг: 0 / 0
Что лучше: спарк или big query?
    #40115506
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь Бобак
они пишут что деньги берут за хранение (здесь все понятно) и за обработку, и даже приводят примеры как считается размер колонки в зависимости от типа.

вот только мне одно не понятно: если у меня случайно был написан кривой запрос, который вычитал 1000 строк из одной таблицы, 1000 строк из другой, и случайно сделал кроссджойн между ними (и вышло миллион строк), то с меня возьмут денег за 2000 строк, или же все-таки за миллион? (учитывая, что этот миллион возможно надо будет разместить в памяти, может по частям может нет - это уже не важно, но на одном из промежуточных этапов выполнения SQL будет сгенерировано миллион строк)

Я просто не понимаю что они считают: только то, что вычитают из диска, или же сумму всех промежуточных байт, которые были скушаны на всех промежуточных этапах выполнения sql запроса?
если у вас план "по запросу" то у вас ограниченный набор слотов на проект (выч. ресурсы), но плата только за считанное с диска (стоимость можно регулировать квотами).
если у вас план "фикс" то вы по сути покупаете выч. ресурсы и платите именно за них, без платы за чтение с диска
...
Рейтинг: 0 / 0
Что лучше: спарк или big query?
    #40116581
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
у меня есть и бигквери и спарк кластер

Если вопрос не про деньги я тупо чтобы работало я за бигквеги (Запустил запрос получил резутат)
Если нужно по финансам то конечно спарк, но там нужно прям погружаться ( шафлы всякие смотреть, хеши солить)
...
Рейтинг: 0 / 0
11 сообщений из 11, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Что лучше: спарк или big query?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали тему (1): Анонимы (1)
Читали форум (1): Анонимы (1)
Пользователи онлайн (10): Анонимы (7), Yandex Bot, Google Bot 3 мин., Bing Bot 3 мин.
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]