Hive и MapReduce / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hive и MapReduce

19 сообщений из 19, страница 1 из 1

Hive и MapReduce

#39219855

MapReducer

Гость

Добрый день!

Только приступил к изучению Hadoop и Hive и хочу уточнить одну вещь:

В статьях и учебниках написано, что Hive преобразует команды HiveQL в задачи для MapReduce, но при этом не объясняют каким образом это происходит, а сразу начинают рассказывать о синтаксисе HiveQL, как загружать данные в таблицы итп.

Скажите пожалуйста, правильно ли я понял из этих книг, что для каждого запроса HiveQL должен быть предварительно написан скрипт, который нужно будет каждый раз(или один раз) прописывать перед запросом в виде "ADD_FILE...."?
Я то вначале обрадовался, что могу писать самый обычный SQL, какой захочу, к созданным таблицам, а HIVE на основе каких-то метаданных сам сгенерирует задачи для MapReduce.
Или я чего-то упустил?
В общем, прошу дать ссылки на статьи, книги, где бы я мог получить ответы на свои вопросы чайника. Или пояснить здесь.

Спасибо.

...

Рейтинг:

0 / 0

20.04.2016, 10:04

| Ответить | Цитировать | Написать

Hive и MapReduce

#39219909

Станислав Клевцов

Участник

Откуда: Krasnodar-Russia

Сообщения: 529

Рейтинг: 0 / 0

MapReducerДобрый день!

Только приступил к изучению Hadoop и Hive и хочу уточнить одну вещь:

В статьях и учебниках написано, что Hive преобразует команды HiveQL в задачи для MapReduce, но при этом не объясняют каким образом это происходит, а сразу начинают рассказывать о синтаксисе HiveQL, как загружать данные в таблицы итп.

Скажите пожалуйста, правильно ли я понял из этих книг, что для каждого запроса HiveQL должен быть предварительно написан скрипт, который нужно будет каждый раз(или один раз) прописывать перед запросом в виде "ADD_FILE...."?
Я то вначале обрадовался, что могу писать самый обычный SQL, какой захочу, к созданным таблицам, а HIVE на основе каких-то метаданных сам сгенерирует задачи для MapReduce.
Или я чего-то упустил?
В общем, прошу дать ссылки на статьи, книги, где бы я мог получить ответы на свои вопросы чайника. Или пояснить здесь.

Спасибо.

Какую книгу изучаете ( укажите, пожалуйста ) ?

Для подсчета кол-ва записей в созданной таблице с помощью Hive .
HiveQL преобразуется в 1 MapReduce задачу

Вы пробовали на виртуалке что-нибудь написать ? ( типа ...пример ниже )
hive> select count(1) from test;
Total MapReduce jobs = 1
Launching Job 1 out of 1
...
Starting Job = job_1343957512459_0004, Tracking URL =
http://localhost:8088/proxy/application_1343957512459_0004/
Kill Command = hadoop job -Dmapred.job.tracker=localhost:10040 -kill
job_1343957512459_0004
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2016-04-20 10:17:24,962 Stage-1 map = 0%, reduce = 0%
2016-04-20 10:17:31,577 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.87 sec
2016-04-20 10:17:32,664 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 2.64 sec
MapReduce Total cumulative CPU time: 2 seconds 640 msec
Ended Job = job_1343957512459_0004
MapReduce Jobs Launched:
Job 0: Map: 1 Reduce: 1 Accumulative CPU: 2.64 sec HDFS Read: 0 HDFS Write: 0
SUCСESS
Total MapReduce CPU Time Spent: 2 seconds 640 msec
OK
4
Time taken: 14.204 seconds

...

Рейтинг:

0 / 0

20.04.2016, 10:39

| Ответить | Цитировать | Написать

Hive и MapReduce

#39219937

MapReducer

Гость

Нет, я пока чистый теоретик. Надо, видимо, срочно установить виртуальную машину с Hadoop и Hive.

Читал выборочно главы из Hadoop: The definitive guide. Автор Tom White.
Ну и статьи поиском по яндексу\гуглу.

Я просто ожидал в книге увидеть пример, как какой-нибудь запрос HiveQL преобразуется в задачи MapReduce(генерацию скрипта, если хотите) и на основании чего будет это преобразование (каких-то метаданных например, которые нужно до этого сгенерить или что-то типа того).
А там сразу начали писать, что типа вот наш скрипт про погоду, который мы написали в прошлой главе. Давайте, его зарегистрируем в Hive и запустим запрос про максимальную температуру в течение года....

Я и подумал, что для абсолютно любого запроса должен быть предварительно написан скрипт для MapReduce задачи.

...

Рейтинг:

0 / 0

20.04.2016, 11:01

| Ответить | Цитировать | Написать

Hive и MapReduce

#39220130

Станислав Клевцов

Участник

Откуда: Krasnodar-Russia

Сообщения: 529

Рейтинг: 0 / 0

MapReducerНет, я пока чистый теоретик. Надо, видимо, срочно установить виртуальную машину с Hadoop и Hive.

Читал выборочно главы из Hadoop: The definitive guide. Автор Tom White.
Ну и статьи поиском по яндексу\гуглу.

Я просто ожидал в книге увидеть пример, как какой-нибудь запрос HiveQL преобразуется в задачи MapReduce(генерацию скрипта, если хотите) и на основании чего будет это преобразование (каких-то метаданных например, которые нужно до этого сгенерить или что-то типа того).
А там сразу начали писать, что типа вот наш скрипт про погоду, который мы написали в прошлой главе. Давайте, его зарегистрируем в Hive и запустим запрос про максимальную температуру в течение года....

Я и подумал, что для абсолютно любого запроса должен быть предварительно написан скрипт для MapReduce задачи.

Hive под капотом скрывает реализацию map\reduce и этим облегчает жизнь аналитикам, Data Scientists, статистам и ... ( а вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач ) )

...

Рейтинг:

0 / 0

20.04.2016, 13:33

| Ответить | Цитировать | Написать

Hive и MapReduce

#39221951

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Станислав Клевцова вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач )
Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce.

...

Рейтинг:

0 / 0

22.04.2016, 00:27

| Ответить | Цитировать | Написать

Hive и MapReduce

#39222107

Станислав Клевцов

Участник

Откуда: Krasnodar-Russia

Сообщения: 529

Рейтинг: 0 / 0

ApexСтанислав Клевцова вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач )
Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce.

вот оно как :-)
Спасибо , Аpex!!!

...

Рейтинг:

0 / 0

22.04.2016, 10:10

| Ответить | Цитировать | Написать

Hive и MapReduce

#39225074

Станислав Клевцов

Участник

Откуда: Krasnodar-Russia

Сообщения: 529

Рейтинг: 0 / 0

Станислав КлевцовApexпропущено...

Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce.

вот оно как :-)
Спасибо , Аpex!!!

мы чуть не забыли Impala ... а она же пошустрее чем Hive

...

Рейтинг:

0 / 0

26.04.2016, 19:10

| Ответить | Цитировать | Написать

Hive и MapReduce

#39226236

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Станислав Клевцовмы чуть не забыли Impala ... а она же пошустрее чем Hive
Тогда уж Presto. Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.

...

Рейтинг:

0 / 0

28.04.2016, 01:54

| Ответить | Цитировать | Написать

Hive и MapReduce

#39226485

Станислав Клевцов

Участник

Откуда: Krasnodar-Russia

Сообщения: 529

Рейтинг: 0 / 0

ApexСтанислав Клевцовмы чуть не забыли Impala ... а она же пошустрее чем Hive
Тогда уж Presto. Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.

посмотрел... прикольно ! Как всегда СПАСИБО, Apex !

...

Рейтинг:

0 / 0

28.04.2016, 11:41

| Ответить | Цитировать | Написать

Hive и MapReduce

#39226604

Andrey Sribnyak

Участник

Откуда: Киев

Сообщения: 570

Рейтинг: 0 / 0

Apex Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.

Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются

...

Рейтинг:

0 / 0

28.04.2016, 13:21

| Ответить | Цитировать | Написать

Hive и MapReduce

#39226827

Станислав Клевцов

Участник

Откуда: Krasnodar-Russia

Сообщения: 529

Рейтинг: 0 / 0

Andrey SribnyakApex Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.

Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются

надо будет проверить протестить этот момент )

...

Рейтинг:

0 / 0

28.04.2016, 16:43

| Ответить | Цитировать | Написать

Hive и MapReduce

#39227107

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Andrey SribnyakНу наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются
Так я ж про Хадуп писал, а не хайв.

...

Рейтинг:

0 / 0

28.04.2016, 23:23

| Ответить | Цитировать | Написать

Hive и MapReduce

#39227415

haXbat

Участник

Сообщения: 398

Рейтинг: 0 / 0

Станислав КлевцовAndrey Sribnyakпропущено...

Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются

надо будет проверить протестить этот момент )

Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие.

...

Рейтинг:

0 / 0

29.04.2016, 13:00

| Ответить | Цитировать | Написать

Hive и MapReduce

#39227592

Станислав Клевцов

Участник

Откуда: Krasnodar-Russia

Сообщения: 529

Рейтинг: 0 / 0

haXbatСтанислав Клевцовпропущено...

надо будет проверить протестить этот момент )

Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие.

вот засада же ...

...

Рейтинг:

0 / 0

29.04.2016, 15:44

| Ответить | Цитировать | Написать

Hive и MapReduce

#39227729

haXbat

Участник

Сообщения: 398

Рейтинг: 0 / 0

Станислав КлевцовhaXbatпропущено...

Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие.

вот засада же ...

Удобно же, в зависимости задач можешь использовать hive/impala/spark над одними и теми же объектами.

...

Рейтинг:

0 / 0

29.04.2016, 17:48

| Ответить | Цитировать | Написать

Hive и MapReduce

#39227825

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

haXbat,

если не трудно можно в кратце о каждом по отдельности и что их связывает, прям спасибо большое!

...

Рейтинг:

0 / 0

29.04.2016, 21:48

| Ответить | Цитировать | Написать

Hive и MapReduce

#39227829

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

p.s. поиском пользоваться умею, просто хочется более глубоко усвоить со слов прямых пользователей.

...

Рейтинг:

0 / 0

29.04.2016, 21:51

| Ответить | Цитировать | Написать

Hive и MapReduce

#39231200

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

нашел интересную статью

сравнивают Hive, Impala, and Spark в cloudera 5.5

http://www.slideshare.net/cloudera/hive-impala-and-spark-oh-my-sqlonhadoop-in-cloudera-55

...

Рейтинг:

0 / 0

07.05.2016, 00:52

| Ответить | Цитировать | Написать

Hive и MapReduce

#39232356

Станислав Клевцов

Участник

Откуда: Krasnodar-Russia

Сообщения: 529

Рейтинг: 0 / 0

мигель1,

Благодарю , весьма полезная инфа (задержался на 10 слайде )

...

Рейтинг:

0 / 0

10.05.2016, 13:21

| Ответить | Цитировать | Написать

19 сообщений из 19, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hive и MapReduce

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&msg=39226604&tid=1856758]:	0ms
get settings:	11ms
get forum list:	20ms
check forum access:	4ms
check topic access:	4ms
track hit:	82ms
get topic data:	14ms
get forum data:	3ms
get page messages:	81ms
get tp. blocked users:	2ms
others:	251ms

total:	472ms