powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hive и MapReduce
19 сообщений из 19, страница 1 из 1
Hive и MapReduce
    #39219855
MapReducer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Добрый день!

Только приступил к изучению Hadoop и Hive и хочу уточнить одну вещь:

В статьях и учебниках написано, что Hive преобразует команды HiveQL в задачи для MapReduce, но при этом не объясняют каким образом это происходит, а сразу начинают рассказывать о синтаксисе HiveQL, как загружать данные в таблицы итп.

Скажите пожалуйста, правильно ли я понял из этих книг, что для каждого запроса HiveQL должен быть предварительно написан скрипт, который нужно будет каждый раз(или один раз) прописывать перед запросом в виде "ADD_FILE...."?
Я то вначале обрадовался, что могу писать самый обычный SQL, какой захочу, к созданным таблицам, а HIVE на основе каких-то метаданных сам сгенерирует задачи для MapReduce.
Или я чего-то упустил?
В общем, прошу дать ссылки на статьи, книги, где бы я мог получить ответы на свои вопросы чайника. Или пояснить здесь.

Спасибо.
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39219909
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MapReducerДобрый день!

Только приступил к изучению Hadoop и Hive и хочу уточнить одну вещь:

В статьях и учебниках написано, что Hive преобразует команды HiveQL в задачи для MapReduce, но при этом не объясняют каким образом это происходит, а сразу начинают рассказывать о синтаксисе HiveQL, как загружать данные в таблицы итп.

Скажите пожалуйста, правильно ли я понял из этих книг, что для каждого запроса HiveQL должен быть предварительно написан скрипт, который нужно будет каждый раз(или один раз) прописывать перед запросом в виде "ADD_FILE...."?
Я то вначале обрадовался, что могу писать самый обычный SQL, какой захочу, к созданным таблицам, а HIVE на основе каких-то метаданных сам сгенерирует задачи для MapReduce.
Или я чего-то упустил?
В общем, прошу дать ссылки на статьи, книги, где бы я мог получить ответы на свои вопросы чайника. Или пояснить здесь.

Спасибо.

Какую книгу изучаете ( укажите, пожалуйста ) ?

Для подсчета кол-ва записей в созданной таблице с помощью Hive .
HiveQL преобразуется в 1 MapReduce задачу

Вы пробовали на виртуалке что-нибудь написать ? ( типа ...пример ниже )
hive> select count(1) from test;
Total MapReduce jobs = 1
Launching Job 1 out of 1
...
Starting Job = job_1343957512459_0004, Tracking URL =
http://localhost:8088/proxy/application_1343957512459_0004/
Kill Command = hadoop job -Dmapred.job.tracker=localhost:10040 -kill
job_1343957512459_0004
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2016-04-20 10:17:24,962 Stage-1 map = 0%, reduce = 0%
2016-04-20 10:17:31,577 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.87 sec
2016-04-20 10:17:32,664 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 2.64 sec
MapReduce Total cumulative CPU time: 2 seconds 640 msec
Ended Job = job_1343957512459_0004
MapReduce Jobs Launched:
Job 0: Map: 1 Reduce: 1 Accumulative CPU: 2.64 sec HDFS Read: 0 HDFS Write: 0
SUCСESS
Total MapReduce CPU Time Spent: 2 seconds 640 msec
OK
4
Time taken: 14.204 seconds
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39219937
MapReducer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Нет, я пока чистый теоретик. Надо, видимо, срочно установить виртуальную машину с Hadoop и Hive.

Читал выборочно главы из Hadoop: The definitive guide. Автор Tom White.
Ну и статьи поиском по яндексу\гуглу.

Я просто ожидал в книге увидеть пример, как какой-нибудь запрос HiveQL преобразуется в задачи MapReduce(генерацию скрипта, если хотите) и на основании чего будет это преобразование (каких-то метаданных например, которые нужно до этого сгенерить или что-то типа того).
А там сразу начали писать, что типа вот наш скрипт про погоду, который мы написали в прошлой главе. Давайте, его зарегистрируем в Hive и запустим запрос про максимальную температуру в течение года....

Я и подумал, что для абсолютно любого запроса должен быть предварительно написан скрипт для MapReduce задачи.
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39220130
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MapReducerНет, я пока чистый теоретик. Надо, видимо, срочно установить виртуальную машину с Hadoop и Hive.

Читал выборочно главы из Hadoop: The definitive guide. Автор Tom White.
Ну и статьи поиском по яндексу\гуглу.

Я просто ожидал в книге увидеть пример, как какой-нибудь запрос HiveQL преобразуется в задачи MapReduce(генерацию скрипта, если хотите) и на основании чего будет это преобразование (каких-то метаданных например, которые нужно до этого сгенерить или что-то типа того).
А там сразу начали писать, что типа вот наш скрипт про погоду, который мы написали в прошлой главе. Давайте, его зарегистрируем в Hive и запустим запрос про максимальную температуру в течение года....

Я и подумал, что для абсолютно любого запроса должен быть предварительно написан скрипт для MapReduce задачи.

Hive под капотом скрывает реализацию map\reduce и этим облегчает жизнь аналитикам, Data Scientists, статистам и ... ( а вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач ) )
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39221951
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Станислав Клевцова вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач )
Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce.
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39222107
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexСтанислав Клевцова вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач )
Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce.

вот оно как :-)
Спасибо , Аpex!!!
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39225074
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Станислав КлевцовApexпропущено...

Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce.

вот оно как :-)
Спасибо , Аpex!!!

мы чуть не забыли Impala ... а она же пошустрее чем Hive
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39226236
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Станислав Клевцовмы чуть не забыли Impala ... а она же пошустрее чем Hive
Тогда уж Presto. Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39226485
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexСтанислав Клевцовмы чуть не забыли Impala ... а она же пошустрее чем Hive
Тогда уж Presto. Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.

посмотрел... прикольно ! Как всегда СПАСИБО, Apex !
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39226604
Andrey Sribnyak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apex Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.

Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39226827
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Andrey SribnyakApex Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается.

Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются

надо будет проверить протестить этот момент )
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39227107
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Andrey SribnyakНу наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются
Так я ж про Хадуп писал, а не хайв.
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39227415
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Станислав КлевцовAndrey Sribnyakпропущено...


Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует...
Где-то они сильно пересекаются

надо будет проверить протестить этот момент )

Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие.
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39227592
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbatСтанислав Клевцовпропущено...


надо будет проверить протестить этот момент )

Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие.

вот засада же ...
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39227729
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Станислав КлевцовhaXbatпропущено...


Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие.

вот засада же ...

Удобно же, в зависимости задач можешь использовать hive/impala/spark над одними и теми же объектами.
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39227825
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

если не трудно можно в кратце о каждом по отдельности и что их связывает, прям спасибо большое!
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39227829
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
p.s. поиском пользоваться умею, просто хочется более глубоко усвоить со слов прямых пользователей.
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39231200
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
нашел интересную статью

сравнивают Hive, Impala, and Spark в cloudera 5.5

http://www.slideshare.net/cloudera/hive-impala-and-spark-oh-my-sqlonhadoop-in-cloudera-55
...
Рейтинг: 0 / 0
Hive и MapReduce
    #39232356
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

Благодарю , весьма полезная инфа (задержался на 10 слайде )
...
Рейтинг: 0 / 0
19 сообщений из 19, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hive и MapReduce
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]