powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Ктото реально юзал Kudu ? (Hadoop)
19 сообщений из 19, страница 1 из 1
Ктото реально юзал Kudu ? (Hadoop)
    #39148031
Фотография dmsnet
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Есть у кого опыт по проектах?
если кратко впечатления можете описать ? минусы ...

ато есть хайлоад проект метаясь тут в раздумиях ...
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39148033
Фотография dmsnet
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
http://m.habrahabr.ru/post/272267/

хвалят ... но как в реальности оно , эт вопрос
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39150031
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dmsnet http://m.habrahabr.ru/post/272267/

хвалят ... но как в реальности оно , эт вопрос

почитал )

В заключении следует сказать, что в данный момент Kudu находится в стадии активной разработки и не готов для использования в продакшн.
...
Рейтинг: 0 / 0
Период между сообщениями больше года.
Ктото реально юзал Kudu ? (Hadoop)
    #39409103
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,
Статья на хабре
3 декабря 2015 в 17:39

год прошел )

Я смотрю на бигдату апача не спешат переходить..

боятся опенсорс??
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39409370
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да вот оно все в теории красиво. На практике как обычно вылазят различные нюансы и благодаря им Хадуп при работе с структурированными данными здорово уступает заточенным на работу с ними РСУБД и по скорости и по функционалу и по надежности. Приходится мухлевать - сейчас вот например связку тестируем Hive на ORC для сбора и прожевывания данных плюс Вертика, которая таблицы Hive как внешние таблицы гоняет в запросах из HDFS.
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39410952
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUS,

получается интересная вещь

есть куча данных на дисках (HDFS)
а аналитики хотят быстро их гонять. Теперь вопрос... где?
вот и приходятся все равно их перегонять в колоночные таблицы (вертика, импала, монетдб, итд)
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39410980
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1Теперь вопрос... где?Spark?
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39411066
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушкамигель1Теперь вопрос... где?Spark?

Спарк я думаю хорош для анализа.
Аналитку на нем не построить. ИМХО
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39411139
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

а, что вы в данном контексте подразумеваете под "аналитикой"?
прямой запрос sql или в hive не будет аналитикой?
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39411388
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушка,

Под аналитикой я понимаю совокупность инструментов, когда пользователь из какой -то веб морды, выбирает параметры, и получает отчет.

Как я понимаю, спарк не умеет:
На сгенерированный запрос создать датасет, информацию для которого будет брать из HDFS
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39411431
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
мигель1Под аналитикой я понимаю совокупность инструментов, когда пользователь из какой -то веб морды, выбирает параметры, и получает отчет.

Как я понимаю, спарк не умеет:
На сгенерированный запрос создать датасет, информацию для которого будет брать из HDFS
почему же, может. типа так
Код: java
1.
2.
3.
4.
5.
6.
7.
    val df = sparkSession.read
      .option("header", true)
      .option("delimiter", ";")
      .csv("/hdfs_path/file1.csv")
      .createOrReplaceTempView("csvtable")

   var data = sparkSession.sql("SELECT * FROM csvtable" )
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39411493
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1Под аналитикой я понимаю совокупность инструментов, когда пользователь из какой -то веб морды, выбирает параметры, и получает отчет.apache zeppelin?
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39411825
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушка,

Нашел статью на хабре
https://habrahabr.ru/company/jetinfosystems/blog/269769/

Пока такие танцы с бубном, бизнес не будет использовать окружение апача
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39411841
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
мигель1Нашел статью на хабре
https://habrahabr.ru/company/jetinfosystems/blog/269769/

Пока такие танцы с бубном, бизнес не будет использовать окружение апача
сомневаюсь, что бизнес станет связываться наркоманами пытающимся диалект спарка или посгреса обращаться к неподдерживаемому ораклу.
человеку уже на уровне идеи подружить тулзу к бигдата с ораклом стоило бы сказать нет наркотикам, а не принимать убойную дозу.

суть тулзы - дать доступ к дребедени поверх hadoop и его hdfs: hive, spark
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39412252
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Yo.!мигель1Под аналитикой я понимаю совокупность инструментов, когда пользователь из какой -то веб морды, выбирает параметры, и получает отчет.

Как я понимаю, спарк не умеет:
На сгенерированный запрос создать датасет, информацию для которого будет брать из HDFS
почему же, может. типа так
Код: java
1.
2.
3.
4.
5.
6.
7.
    val df = sparkSession.read
      .option("header", true)
      .option("delimiter", ";")
      .csv("/hdfs_path/file1.csv")
      .createOrReplaceTempView("csvtable")

   var data = sparkSession.sql("SELECT * FROM csvtable" )



Скажите пожалуйста, а где запускать этот чудесный код?
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39412331
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
мигель1Скажите пожалуйста, а где запускать этот чудесный код?

в гуйне databriks облака, oracle BI, apache zeppelin и т.п.
вобщем там где спарк супортиться
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39413112
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1ASCRUS,

получается интересная вещь

есть куча данных на дисках (HDFS)
а аналитики хотят быстро их гонять. Теперь вопрос... где?
вот и приходятся все равно их перегонять в колоночные таблицы (вертика, импала, монетдб, итд)
Ну вот не обязательно перегонять. В той же Вертике таблица Hive цепляется как внешняя и дальше запросы Вертики работают с ней, как родной таблицей. Причем это не тупо чтение всего с HDFS и пост обработка. С тем же форматом ORC Вертика оперирует партициями и тащит только нужные куски таблицы. Так же оперирует статистикой читаемых блоков и не читает тех, кто изначально не подходит под условия запросов. Плюс данные тащатся параллельно с нод кластера Хадуп нодами кластера Вертики, нет такого, что хдфс собирает весь файл из кусков и отдает Вертике. Если Вертика на тех же нодах живет, до тучи она еще и локально сразу куски видит, не тащит их через webhdfs, а читает напрямую. В общем медленнее чем на собственных ROS контейнерах локальных дисков, но все равно оптимизация присутствует и она сильно пошустрее, чем оптимизация того же Hive :)
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39413259
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUS,

Я правильно понимаю, что Вы утверждаете, что Vertica на HDFS быстрее, чем Impala или Spark ?
...
Рейтинг: 0 / 0
Ктото реально юзал Kudu ? (Hadoop)
    #39413318
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
мигель1Я правильно понимаю, что Вы утверждаете, что Vertica на HDFS быстрее, чем Impala или Spark ?
нет, он говорил о hive, который превращает SQL в неспешный map-reduce.
impala и спарк по другим принципам работают.
...
Рейтинг: 0 / 0
19 сообщений из 19, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Ктото реально юзал Kudu ? (Hadoop)
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]