|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
Добрый день! Только приступил к изучению Hadoop и Hive и хочу уточнить одну вещь: В статьях и учебниках написано, что Hive преобразует команды HiveQL в задачи для MapReduce, но при этом не объясняют каким образом это происходит, а сразу начинают рассказывать о синтаксисе HiveQL, как загружать данные в таблицы итп. Скажите пожалуйста, правильно ли я понял из этих книг, что для каждого запроса HiveQL должен быть предварительно написан скрипт, который нужно будет каждый раз(или один раз) прописывать перед запросом в виде "ADD_FILE...."? Я то вначале обрадовался, что могу писать самый обычный SQL, какой захочу, к созданным таблицам, а HIVE на основе каких-то метаданных сам сгенерирует задачи для MapReduce. Или я чего-то упустил? В общем, прошу дать ссылки на статьи, книги, где бы я мог получить ответы на свои вопросы чайника. Или пояснить здесь. Спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.04.2016, 10:04 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
MapReducerДобрый день! Только приступил к изучению Hadoop и Hive и хочу уточнить одну вещь: В статьях и учебниках написано, что Hive преобразует команды HiveQL в задачи для MapReduce, но при этом не объясняют каким образом это происходит, а сразу начинают рассказывать о синтаксисе HiveQL, как загружать данные в таблицы итп. Скажите пожалуйста, правильно ли я понял из этих книг, что для каждого запроса HiveQL должен быть предварительно написан скрипт, который нужно будет каждый раз(или один раз) прописывать перед запросом в виде "ADD_FILE...."? Я то вначале обрадовался, что могу писать самый обычный SQL, какой захочу, к созданным таблицам, а HIVE на основе каких-то метаданных сам сгенерирует задачи для MapReduce. Или я чего-то упустил? В общем, прошу дать ссылки на статьи, книги, где бы я мог получить ответы на свои вопросы чайника. Или пояснить здесь. Спасибо. Какую книгу изучаете ( укажите, пожалуйста ) ? Для подсчета кол-ва записей в созданной таблице с помощью Hive . HiveQL преобразуется в 1 MapReduce задачу Вы пробовали на виртуалке что-нибудь написать ? ( типа ...пример ниже ) hive> select count(1) from test; Total MapReduce jobs = 1 Launching Job 1 out of 1 ... Starting Job = job_1343957512459_0004, Tracking URL = http://localhost:8088/proxy/application_1343957512459_0004/ Kill Command = hadoop job -Dmapred.job.tracker=localhost:10040 -kill job_1343957512459_0004 Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 2016-04-20 10:17:24,962 Stage-1 map = 0%, reduce = 0% 2016-04-20 10:17:31,577 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.87 sec 2016-04-20 10:17:32,664 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 2.64 sec MapReduce Total cumulative CPU time: 2 seconds 640 msec Ended Job = job_1343957512459_0004 MapReduce Jobs Launched: Job 0: Map: 1 Reduce: 1 Accumulative CPU: 2.64 sec HDFS Read: 0 HDFS Write: 0 SUCСESS Total MapReduce CPU Time Spent: 2 seconds 640 msec OK 4 Time taken: 14.204 seconds ... |
|||
:
Нравится:
Не нравится:
|
|||
20.04.2016, 10:39 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
Нет, я пока чистый теоретик. Надо, видимо, срочно установить виртуальную машину с Hadoop и Hive. Читал выборочно главы из Hadoop: The definitive guide. Автор Tom White. Ну и статьи поиском по яндексу\гуглу. Я просто ожидал в книге увидеть пример, как какой-нибудь запрос HiveQL преобразуется в задачи MapReduce(генерацию скрипта, если хотите) и на основании чего будет это преобразование (каких-то метаданных например, которые нужно до этого сгенерить или что-то типа того). А там сразу начали писать, что типа вот наш скрипт про погоду, который мы написали в прошлой главе. Давайте, его зарегистрируем в Hive и запустим запрос про максимальную температуру в течение года.... Я и подумал, что для абсолютно любого запроса должен быть предварительно написан скрипт для MapReduce задачи. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.04.2016, 11:01 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
MapReducerНет, я пока чистый теоретик. Надо, видимо, срочно установить виртуальную машину с Hadoop и Hive. Читал выборочно главы из Hadoop: The definitive guide. Автор Tom White. Ну и статьи поиском по яндексу\гуглу. Я просто ожидал в книге увидеть пример, как какой-нибудь запрос HiveQL преобразуется в задачи MapReduce(генерацию скрипта, если хотите) и на основании чего будет это преобразование (каких-то метаданных например, которые нужно до этого сгенерить или что-то типа того). А там сразу начали писать, что типа вот наш скрипт про погоду, который мы написали в прошлой главе. Давайте, его зарегистрируем в Hive и запустим запрос про максимальную температуру в течение года.... Я и подумал, что для абсолютно любого запроса должен быть предварительно написан скрипт для MapReduce задачи. Hive под капотом скрывает реализацию map\reduce и этим облегчает жизнь аналитикам, Data Scientists, статистам и ... ( а вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач ) ) ... |
|||
:
Нравится:
Не нравится:
|
|||
20.04.2016, 13:33 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
Станислав Клевцова вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач ) Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2016, 00:27 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
ApexСтанислав Клевцова вот как это он делает в деталях не встречал статьи ( как он транслирую HiveQL в код на том же java для выполнения map \ reduce задач ) Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce. вот оно как :-) Спасибо , Аpex!!! ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2016, 10:10 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
Станислав КлевцовApexпропущено... Трансляции, в смысле генерации java-кода на лету там нет. Там есть генерация плана запроса, а уже по этому плану запуск соответствующих функций в MapReduce. Т.е. Hive в этом смысле не генератор, а движек исполнения план запроса через MapReduce. вот оно как :-) Спасибо , Аpex!!! мы чуть не забыли Impala ... а она же пошустрее чем Hive ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2016, 19:10 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
Станислав Клевцовмы чуть не забыли Impala ... а она же пошустрее чем Hive Тогда уж Presto. Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2016, 01:54 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
ApexСтанислав Клевцовмы чуть не забыли Impala ... а она же пошустрее чем Hive Тогда уж Presto. Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается. посмотрел... прикольно ! Как всегда СПАСИБО, Apex ! ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2016, 11:41 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
Apex Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается. Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует... Где-то они сильно пересекаются ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2016, 13:21 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
Andrey SribnyakApex Impala - это отдельная история, она по большому счету с хадупом нигде кроме файловой системы не пересекается. Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует... Где-то они сильно пересекаются надо будет проверить протестить этот момент ) ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2016, 16:43 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
Andrey SribnyakНу наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует... Где-то они сильно пересекаются Так я ж про Хадуп писал, а не хайв. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2016, 23:23 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
Станислав КлевцовAndrey Sribnyakпропущено... Ну наверное не совсем так... создать таблицу в Impala если уже существует таблица с таким же именем в Hive - говорит, что уже существует... Где-то они сильно пересекаются надо будет проверить протестить этот момент ) Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2016, 13:00 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
haXbatСтанислав Клевцовпропущено... надо будет проверить протестить этот момент ) Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие. вот засада же ... ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2016, 15:44 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
Станислав КлевцовhaXbatпропущено... Кэп сообщает, что Impala хранит все объекты в hive metastore. Другими словами - все метаданные общие. вот засада же ... Удобно же, в зависимости задач можешь использовать hive/impala/spark над одними и теми же объектами. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2016, 17:48 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
haXbat, если не трудно можно в кратце о каждом по отдельности и что их связывает, прям спасибо большое! ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2016, 21:48 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
p.s. поиском пользоваться умею, просто хочется более глубоко усвоить со слов прямых пользователей. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2016, 21:51 |
|
Hive и MapReduce
|
|||
---|---|---|---|
#18+
нашел интересную статью сравнивают Hive, Impala, and Spark в cloudera 5.5 http://www.slideshare.net/cloudera/hive-impala-and-spark-oh-my-sqlonhadoop-in-cloudera-55 ... |
|||
:
Нравится:
Не нравится:
|
|||
07.05.2016, 00:52 |
|
|
start [/forum/topic.php?fid=48&msg=39226604&tid=1856758]: |
0ms |
get settings: |
11ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
165ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
51ms |
get tp. blocked users: |
1ms |
others: | 12ms |
total: | 277ms |
0 / 0 |