|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Update: получилось запустить спарковый SQL на той табличке вот так spark-sql --num-executors 3 --executor-memory 4G --executor-cores 6 --driver-memory 1G insert into mycsvtable select ... и тот SQL с аналитикой, заняло 5.5 минут, в вараианте с mapreduce выставил 5 маперов и 7 редюсеров, заняло 7 минут. т.е. разница в скоростях не принципиальны. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.07.2017, 08:49 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Yo.!dbms_photoshopТы же сможешь продемонстировать как тру-программисты для реализации этой логики пишут "руками обычные map-reduce"? . На баше писали? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.07.2017, 21:43 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Три года назад в Амазоне подсадили на вот это SQL Workbench/J . Оказался очень приятным в использовании и качественным инструментом. Что касается SQL vs что-то там еще. SQL используем как и положено для Ah-Hoc'a и отчетов. ETL стараемся делать на DataFrame API + Shapeless. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2017, 22:33 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
ApexТри года назад в Амазоне подсадили на вот это SQL Workbench/J . Оказался очень приятным в использовании и качественным инструментом. Что касается SQL vs что-то там еще. SQL используем как и положено для Ah-Hoc'a и отчетов. ETL стараемся делать на DataFrame API + Shapeless. Spark/DataFrame на амазоне ? Amazon EMR или виртуалки со своим дистрибутивом ? как давно запустили spark ? в клоудере spark выглядит по гланды кастрированным. даже spark-sql утилита вырезана ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2017, 08:44 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Yo.!Spark/DataFrame на амазоне ? Amazon EMR или виртуалки со своим дистрибутивом ? как давно запустили spark ? На данный момент используем AWS EMR, но будет переходить на Qubole, там юзерам чуть поудобнее сделано. Хотя нам для ETL почти без разницы. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2017, 06:38 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
ApexНа данный момент используем AWS EMR, но будет переходить на Qubole, там юзерам чуть поудобнее сделано. Хотя нам для ETL почти без разницы. гугл говорит AWS EMR только с лета 2015 начал супортить спарк, подозреваю и у вас спарк совсем свежая история. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.08.2017, 08:32 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Yo.!ApexНа данный момент используем AWS EMR, но будет переходить на Qubole, там юзерам чуть поудобнее сделано. Хотя нам для ETL почти без разницы. гугл говорит AWS EMR только с лета 2015 начал супортить спарк, подозреваю и у вас спарк совсем свежая история. До этого его просто ставили через bootstrap step. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.08.2017, 08:12 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Товарищи знатоки, подскажите, а Impala выполнят запросы чисто в памяти или может и на диске? У меня сейчас кластер из 6 машин по 16гб озу в каждой, hive на mr медленно, но уверенно отрабатывает, а impala пару раз подвешивала весь центральную ноду, где меньше всего озу. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.08.2017, 17:43 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
pihelТоварищи знатоки, подскажите, а Impala выполнят запросы чисто в памяти или может и на диске? У меня сейчас кластер из 6 машин по 16гб озу в каждой, hive на mr медленно, но уверенно отрабатывает, а impala пару раз подвешивала весь центральную ноду, где меньше всего озу. может и не в памяти, иначе толку было бы в бигдата от такого. из этих 16, сколько импале то отдано ? небойс все отдано yarn, а не импале. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.08.2017, 11:06 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Yo.!, Кластер был в тот момент пустой. Тестировал запрос с большой группировкой последовательно в разных системах: 2 млрд записей, около 700млн групп. В оракле запрос падал с темпом, импала вот тоже подвисала даже , хайв отрабатывал. Потом пробовал на 500 млн записей, хайв был быстрей импалы и оракла (уходил в темп) Ладно, это уже офтоп, не буду захламлять топик ... |
|||
:
Нравится:
Не нравится:
|
|||
19.08.2017, 11:31 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
pihelКластер был в тот момент пустой. хоть беременный. если все ресурсы отданы yarn, импала будет гарантированно дохнуть. забери ресурсы у yarn и отдай импале. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.08.2017, 11:45 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
pihel, Hive on Tez быстрее Impala? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.08.2017, 23:37 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
мигель1, у меня сейчас установлена сборка от клаудеры, в которой нет Tez. Видимо придется поплатиться за свою лень и теперь как-то самому ставить tez ... |
|||
:
Нравится:
Не нравится:
|
|||
21.08.2017, 09:36 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
pihelу меня сейчас установлена сборка от клаудеры, в которой нет Tez. Видимо придется поплатиться за свою лень и теперь как-то самому ставить tez по моим замерам Tez заметно медленее импалы. на клоудере вместо импалы, есть смысл пробовать Spark как движок к Hive (ставить через parcel), Tez на клоудере сомнительная затея. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.08.2017, 10:20 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Yo.!, есть ли смысл пробовать spark/impala, если в кластере 6 нод, на каждой по 16ГБ озу ддр2 и хранилище пока что в 2 ТБ ? Мне кажется маловато озу, MR хотябы точно выполнится и не упадет. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.08.2017, 10:49 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
pihelесть ли смысл пробовать spark/impala, если в кластере 6 нод, на каждой по 16ГБ озу ддр2 и хранилище пока что в 2 ТБ ? Мне кажется маловато озу, MR хотябы точно выполнится и не упадет. смотря, что вы хотите от импалы/spark. мое глубокое имхо ETL тяжелые расчеты делать на импале не стоит, у нас подход map-reduce делает ETL, тяжелые расчеты и готовит широкие таблички, которые импалой смотрят отчетные системы и юзера. таким образом там импале особо негде перетрудиться и тогда она работает довольно стабильно. спарка в продукции не видел, мы пока лишь приглядываемся. в теории он интегрируется с yarn, интегрируется с Hive, но реальных примеров почти нет. все примерчики примитивны в стиле создать sparkSession, посчитать слова, тогда как в реале нужно изобретать какое-то middleware что бы джобы использовали единый sparkSession. 16гб думаю ему будет вполне хватать, у мня в виртуалке one node 16гб кое что запускается более менее. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.08.2017, 11:26 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Yo.!, спасибо, тоже тогда буду пробовать на map reduce (в моем случае hive) посчитать агрегаты, а дальше что-то другое. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.08.2017, 12:18 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
pihelYo.!, есть ли смысл пробовать spark/impala, если в кластере 6 нод, на каждой по 16ГБ озу ддр2 и хранилище пока что в 2 ТБ ? Мне кажется маловато озу, MR хотябы точно выполнится и не упадет. Ну и спарк не упадет, если все правильно написано. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.09.2017, 02:54 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Yo.! map-reduce делает ETL, тяжелые расчеты и готовит широкие таблички, которые импалой смотрят отчетные системы и юзера. . Скажите, какие отчетные системы юзают импалу?? Самописные или ентерпрайз какие-то? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.09.2017, 11:46 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Ivan DurakYo.! map-reduce делает ETL, тяжелые расчеты и готовит широкие таблички, которые импалой смотрят отчетные системы и юзера. . Скажите, какие отчетные системы юзают импалу?? Самописные или ентерпрайз какие-то? все какие умеют через Hive, конкретно у нас QlickView, еще с боку видел Tableau тестировали ... |
|||
:
Нравится:
Не нравится:
|
|||
06.09.2017, 11:57 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Yo.!Ivan Durakпропущено... Скажите, какие отчетные системы юзают импалу?? Самописные или ентерпрайз какие-то? все какие умеют через Hive, конкретно у нас QlickView, еще с боку видел Tableau тестировали Прям заинтриговали. клик же все в память поднимает, зачем к нему хейв прикручивать? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.09.2017, 01:02 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
мигель1Yo.!пропущено... все какие умеют через Hive, конкретно у нас QlickView, еще с боку видел Tableau тестировали Прям заинтриговали. клик же все в память поднимает, зачем к нему хейв прикручивать? Причем здесь хайв, говорят же, смотрят Импалой. От Хайва там только драйвер, с которым Импала была совместима. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.09.2017, 03:56 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Yo.!вспомнил про пост, побыстрому нарисовал mapreduce для той "пятничной задачки" Ну респект, что продемонстрировал. Обычно многие сливаются. Yo.!как видим mapreduce код примитив, студент последних курсов легко решит такую "пятничную" задачку в mapreduce за 15-30 минут, тогда как sql код для спарка уже из разряда пятничных задачек, и пишется не за 15 минут и явно не студентом. дальше mapreduce решение в данном случае легко сопровождается и расширяется - пункт 3) с подсчетом "редыдущих original так чтоб их сумма не превышала заданный лимит" добавляется за 5 минут, в решении со спарком как я понимаю придется все нафиг переписывать с нуля, отказываясь от декларативного sql и рисовать те же циклы, что у меня в редюсере. т.е. как раз эта задачка показывает что задачи у всех разные, и кое что в mapreduce много удобней делать.В Spark можно миксовать подходы SQL + api, при этом переход иногда весьма плавный. И все очень взаимозаменяемо. Vanilla map reduce это не только отстойная производительность и избыточный код, это устаревший и ограниченный подход. Особенно на Vanilla MR шикарно выглядела бы логика, требующая на SQL десятка соединений, группировку и аналитику. В 2013 вполне можно прокатить как решение, но с появлением Spark 1.6 и особенно Spark 2.0 никто в цивилизованном мире не начинает пилить ETL с нуля на MR. Если нагенерили тонны говнокода, то иногда приходится его поддерживать, да. Были даже промедуточные фреймворки типа Scalding, Scoobi, Scrunch и все это уже заменено Spark. Ознакомься с положением дел 4 года назад Should I Use Scalding or Scoobi or Scrunch? . Там в презентации есть даже отдельный раздел Future. Это то, что уже наступило. Итого если нет желания изучать новые подходы, можно продолжать писать дубовый говнокод за 15 минут, но если иногда есть время точить топор перед тем как рубить лес, то жизнь себе можно сильно облегчить. Yo.!что касается перфоменса, то померить в спарке 2.1 не удалось. спарк на чуть больших объемах вываливается с java.lang.OutOfMemoryError: GC overhead limit exceededВ том и дело, что спарк работает в памяти, а MR заливает промежуточные результаты на диск не говоря уже про другие ограничения MR. Погугли что ли spark vs MR. Дофига же материалов в сети. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.09.2017, 15:03 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Теперь парочку подходов на spark. Та же табличка с двумя позициями Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.
DataFrame Код: sql 1. 2.
Рассмотрим только получение одной колонки из трех (prev_o_value) для простоты. Если применить двойную аналитику как было показано здесь ( Пятничная задачка. Смотрим назад. ), то подход через API может выглядеть так. Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41.
Здесь, например, вместо when-otherwise можно было бы использовать expr(SQL case). Теперь уйдем от использования аналитики в том или ином виде. Map. Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
Улучшаем. Переходим к mapPartitions. Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.
Если большое желание, то можно преобразовать набор данных в key-value пары, где value будет набор полей и применять PairRDDFunctions типа reduceByKey, groupBykey, aggregateByKey, combineByKey. Только для этой задачи это несколько неуклюже так как нам не надо "схлопывать" набор данных. Подытоживая, для data frame применить и функциональный подход и SQL сверху натянуть. Надо минимально понимать как оно работает, конечно. Можно сразу получать результаты в режиме терминала, можно компилировать код. Чем раньше ты уйдешь от Vanilla MR тем тебе будет лучше. Хотя можно, конечно, вспахивать поле на гужевой силе вместо комбайна. Разные бывают эстеты. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.09.2017, 15:36 |
|
Инструмент для работы с SQL движками Impala/Hive
|
|||
---|---|---|---|
#18+
Yo.!pihelКластер был в тот момент пустой. хоть беременный. если все ресурсы отданы yarn, импала будет гарантированно дохнуть. забери ресурсы у yarn и отдай импале.Погугли impala load balancer. Using Impala through a Proxy for High Availability ... |
|||
:
Нравится:
Не нравится:
|
|||
24.09.2017, 15:42 |
|
|
start [/forum/topic.php?fid=48&msg=39516321&tid=1856652]: |
0ms |
get settings: |
7ms |
get forum list: |
13ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
148ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
66ms |
get tp. blocked users: |
1ms |
others: | 236ms |
total: | 486ms |
0 / 0 |