|
Hadoop
|
|||
---|---|---|---|
#18+
Коллеги подскажите хадуп можно поставить на существующую ОС ? Форматирование Hadoop File System не приведет к форматированию текущего диска ? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 10:32 |
|
Hadoop
|
|||
---|---|---|---|
#18+
navioКоллеги подскажите хадуп можно поставить на существующую ОС ? Форматирование Hadoop File System не приведет к форматированию текущего диска ?Можно, на Linux, только версия должна быть поддерживаемой. Не приведет. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 11:25 |
|
Hadoop
|
|||
---|---|---|---|
#18+
navioФорматирование Hadoop File System не приведет к форматированию текущего диска ? HDFS работает поверх существующей файловой системы, по сути у вас просто будет директория в которой будут храниться файлы-блоки hdfs'a. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 21:38 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Коллеги . Прочитал на хабре "При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд" Что подразумевается под словом "узел"? сервер? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 16:08 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1Коллеги . Прочитал на хабре "При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд" Что подразумевается под словом "узел"? сервер? Это может быть и виртуалкой :) Так что называют "узел". ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 16:19 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominмигель1Коллеги . Прочитал на хабре "При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд" Что подразумевается под словом "узел"? сервер? Это может быть и виртуалкой :) Так что называют "узел". А как можно считать по "узлам/виртуалкам" если начинка может быть разной одно дело 2 ядра 8 гб оперативки а другое 24 ядра 512 гб оперативки? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 16:21 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1одно дело 2 ядра 8 гб оперативки а другое 24 ядра 512 гб оперативки? Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 17:58 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbatмигель1одно дело 2 ядра 8 гб оперативки а другое 24 ядра 512 гб оперативки? Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации. Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза? Так? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 18:10 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1haXbatпропущено... Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации. Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза? Так? а что ставить собираетесь ? (Будет ли использовать решения от Cloudera, hortonworks или что- то другое) ? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 21:57 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1haXbatпропущено... Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации. Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза? Так? Но есть ньюанс :) Не надо забывать, в map/reduce не 2 шага, а 3. Промежуточный (переупорядочивание данных между узлами перед reduce) занимает некоторое время. И оно не будет снижаться при увеличении числа узлов. Поэтому рост будет не линейным, причём чем дальше- тем хуже. Сравнение же с одним узлом, особенно без использование хадупа, ещё сложнее- т.к. у него накладных расходов своих очень много. Даже просто переход од одного узла к двум не даст *2 по скорости :) Вообще для хадупа 4 узла- это по сути минимальная конфигурация. Меньше- это не показательно вообще (из-за особенностей хранения данных). PS: а ещё не забываем, что хадуп запускает много больше потоков, чем узлов, и это тоже может принести как выигрыш по скорости, так и проблемы. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.05.2015, 08:08 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Развернул Hortonworks Sandbox with HDP 2.2 щас ищу TSV файл миллиардом записей для теста )) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2015, 21:44 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkРазвернул Hortonworks Sandbox with HDP 2.2 щас ищу TSV файл миллиардом записей для теста )) Вопрос. вот есть у меня данные в хадуп. А что с ними делать дальше? В mysql понятно: есть процедуры туда передаются параметры. select выводим пользователям в php А есть бест практис как это организовать для хадупа? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 10:42 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Есть предположение , что надо использовать Sqoop Sqoop is a tool designed to import data from relational databases into Hadoop ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 10:49 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллk, прочитал документацию, я думаю можно решить проблему через sqoop-job ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 11:35 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkкириллk, прочитал документацию, я думаю можно решить проблему через sqoop-job Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным. Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 14:14 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominкириллkкириллk, прочитал документацию, я думаю можно решить проблему через sqoop-job Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным. Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам. Не совсем понял. hive-скрипт это sql запрос а mr-job это ETL который hive-скрипт выполняется При чем тут проигрыш? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 14:39 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkAlexey Tominпропущено... Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным. Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам. Не совсем понял. hive-скрипт это sql запрос а mr-job это ETL который hive-скрипт выполняется При чем тут проигрыш? Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 04:51 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominкириллkкириллk, прочитал документацию, я думаю можно решить проблему через sqoop-job Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным. Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам. А по времени? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 04:52 |
|
Hadoop
|
|||
---|---|---|---|
#18+
ApexAlexey Tominпропущено... Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным. Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам. А по времени? По времени в 4 раза, потому что изначальной задачей было не занимать полностью кластер :) ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 08:34 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Apexкириллkпропущено... Не совсем понял. hive-скрипт это sql запрос а mr-job это ETL который hive-скрипт выполняется При чем тут проигрыш? Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально. А где можно прочитать про эти MR-Job? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 11:08 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkApexпропущено... Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально. А где можно прочитать про эти MR-Job? В гугле забанили? Вот , например. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 13:55 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominкириллkпропущено... А где можно прочитать про эти MR-Job? В гугле забанили? Вот , например. Ах! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать. И потом я думал что нужно юзать spark sql, который быстрее map reduce ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 14:00 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkАх! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать. И? Какое это имеет отношение к тому, что в конечном счете, что Hive, что Pig скрипты выполняются в виде серии MR-Job'ов? кириллkИ потом я думал что нужно юзать spark sql, который быстрее map reduce Это тут при чем? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.12.2015, 03:57 |
|
Hadoop
|
|||
---|---|---|---|
#18+
ApexкириллkАх! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать. И? Какое это имеет отношение к тому, что в конечном счете, что Hive, что Pig скрипты выполняются в виде серии MR-Job'ов? К тому что человек написал " hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам." Смысл в этих hive-скриптах? кириллkИ потом я думал что нужно юзать spark sql, который быстрее map reduce Это тут при чем? Как я понял смысл спарка уйти от методологии map reduce (могу ошибаться) ... |
|||
:
Нравится:
Не нравится:
|
|||
09.12.2015, 11:13 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkКак я понял смысл спарка уйти от методологии map reduce (могу ошибаться) Уйти от движка mr, который хоть и неплохо едет, но запрягает уж ОЧЕНЬ долго. Плюс Спарк умеет в памяти хранить данные... ... |
|||
:
Нравится:
Не нравится:
|
|||
09.12.2015, 13:33 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Приветствую! Дабы не плодить тем... Подскажите, для кластера hadoop возможно ли сделать например 10 серверов(нодов) и все на виртуалках(Vmware, в котором также создан кластер из нескольких гипервизоров)? Сильно ли важно количество оперативной памяти по сравнению с процессорами? И какое оптимально соотношение? И есть ли смысл все пилить с нуля и настраивать самому, или же достаточно воспользоваться HDP_2.4 например? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2016, 09:24 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624, Я думаю Вам стоит все попробовать и нам рассказать. Единственное, я почти уверен что лучше взять готовую сборку клоудеры, чем самому все собирать ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2016, 12:46 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1mishanya3624, Я думаю Вам стоит все попробовать и нам рассказать. Единственное, я почти уверен что лучше взять готовую сборку клоудеры, чем самому все собирать ну или другую сборку от какого-нибудь вендора ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2016, 15:25 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Пытаюсь поставить HUE на Hadoop, поставил пакет, изменил хост в конфиге , запустил hue, все ОК Но когда вхожу на ip:8000 то вылетает эта страница: Код: html 1. 2. 3. 4. 5. 6. 7. 8. 9.
line 427 Код: java 1. 2.
Может у кого есть конфиги рабочие? И есть ли аналог лучше hue? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.04.2016, 18:40 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624, Версия х.я какая? ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2016, 00:49 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Apex, hue-2.6.1.2.4.0.0-169.el6.x86_64 ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2016, 23:14 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Обновитесь до третьей хотя бы. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2016, 08:12 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Apex, Package hue-2.6.1.2.4.0.0-169.el6.x86_64 already installed and latest version Nothing to do авторInstalled Packages hue.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4 hue-beeswax.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4 hue-common.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4 hue-hcatalog.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4 hue-oozie.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4 hue-pig.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4 hue-sandbox.noarch 1.2.1-88 @sandbox hue-server.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4 hue-tutorials.noarch 1.2.1-88 @sandbox ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2016, 11:44 |
|
Hadoop
|
|||
---|---|---|---|
#18+
не пойму толи вендерлок на дальнейший update hue, толи хз, попробую поверх него отдельную 3.9 накатить. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2016, 12:45 |
|
Hadoop
|
|||
---|---|---|---|
#18+
поставил с нуля hadoop накатил hue, это конечно писец гемороина. я правильно понимаю, что вот это старая версия - https://yandex.ru/images/search?text=hadoop hue&img_url=http://2.bp.blogspot.com/-AE49MfG0ZtM/UoO3Nbr-miI/AAAAAAAAA14/V3bipocogb8/s1600/File_Browser.jpg&pos=27&rpt=simage А вот это новая - https://yandex.ru/images/search?text=hadoop hue&img_url=http://gethue.com/wp-content/uploads/2015/06/solr-bike-dashboard.png&pos=4&rpt=simage И подскажите какого еще вендора можно попробовать, кроме hortonworks? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2016, 19:17 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624И подскажите какого еще вендора можно попробовать, кроме hortonworks? Ну, собственно Cloudera и можно. Можно еще AWS EMR, но это в cloud. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2016, 01:25 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624И подскажите какого еще вендора можно попробовать, кроме hortonworks? Для меня Cloudera - это вариант по-умолчанию. Не видел других вариантов в использовании. Ставится предельно просто- типа "хочу" и получаешь хадуп. Правда я пробовал это только под linux - собственно в окружающей меня действительности очень много разработчиков перешли на linux, чтобы не иметь проблем с hadoop - например, можно гонять unit-test'ы на локальной машине без установленного хадупа, но в нём (и почти всё работает так же- я нашёл только один небольшой ньюанс). ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2016, 07:38 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominmishanya3624И подскажите какого еще вендора можно попробовать, кроме hortonworks? Для меня Cloudera - это вариант по-умолчанию. Не видел других вариантов в использовании. Ставится предельно просто- типа "хочу" и получаешь хадуп. Правда я пробовал это только под linux - собственно в окружающей меня действительности очень много разработчиков перешли на linux, чтобы не иметь проблем с hadoop - например, можно гонять unit-test'ы на локальной машине без установленного хадупа, но в нём (и почти всё работает так же- я нашёл только один небольшой ньюанс). В Cloudera есть Impala :-) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2016, 08:51 |
|
Hadoop
|
|||
---|---|---|---|
#18+
А ставил кто-нибудь Cloudera на vmware я про esxi а не workstation? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2016, 15:16 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tomin, Что-то у меня не складывается с вендорами:) качаю это: http://www.cloudera.com/downloads/quickstart_vms/5-7.html дальше пытаюсь открыть на workstation или player на секунду начинает грузиться и вся нагрузка исчезает закачиваю все на esxi он все жесткие конвертит в один размером 8 гб, делаю инвент виртуалки, запускаю, и вылетает ошибка, что не видит виртуальный диск, хотя он там есть :) мзговынос какой-то, а не hadoop, конечно руки бы попримее, но довольствуемся, что есть... Кто сталкивался с такой ерунддой? У hortonwork все проще, скачиваешь готовый шаблон ovf и запускаешь, все проблем нет. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2016, 18:07 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624Alexey Tomin, Что-то у меня не складывается с вендорами:) качаю это: http://www.cloudera.com/downloads/quickstart_vms/5-7.html дальше пытаюсь открыть на workstation или player на секунду начинает грузиться и вся нагрузка исчезает закачиваю все на esxi он все жесткие конвертит в один размером 8 гб, делаю инвент виртуалки, запускаю, и вылетает ошибка, что не видит виртуальный диск, хотя он там есть :) мзговынос какой-то, а не hadoop, конечно руки бы попримее, но довольствуемся, что есть... Кто сталкивался с такой ерунддой? У hortonwork все проще, скачиваешь готовый шаблон ovf и запускаешь, все проблем нет. Мда. Всё же насколько проще жизнь в мире linux ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2016, 20:25 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tomin, если не трудно накидайте план установки. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2016, 22:23 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624Alexey Tomin, если не трудно накидайте план установки. А вот же он. А для отладки ещё проще- для linux после подключения зависимостей хадупа через maven можно запускать m/r задачу вообще без установленного хадупа- понятное дело, что single mode, но windows почему-то лишена этого вообще. Зато насколько упрощается отладка- это просто чудо! И map-задачи тебе, и UDF'ки для pig-скриптом- пошаговое исполнение, логи- всё есть. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.04.2016, 08:18 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tomin, блин, мне аж сегодня приснился разговор про Hadoop с тобой так, я может не то пытался поставить, надо Cloudera Manager ставить, quiсkstart это не то? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.04.2016, 09:27 |
|
Hadoop
|
|||
---|---|---|---|
#18+
еще вопрос, как сделать импорт в вновь созданную базу : sqoop import-all-tables --connect jdbc:mysql://192.168.3.224:3305/tc-db-main --driver com.mysql.jdbc.Driver --username root --hive-import так он все в базу defoult кидает, пробовал менять по всякому, не хотит... ... |
|||
:
Нравится:
Не нравится:
|
|||
27.04.2016, 13:20 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624Alexey Tomin, блин, мне аж сегодня приснился разговор про Hadoop с тобой так, я может не то пытался поставить, надо Cloudera Manager ставить, quiсkstart это не то? Честно говоря, я обхожусь тем, который работает без установки вообще. "Однонодовый" ставил, но как - уже забыл. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.04.2016, 13:30 |
|
Hadoop
|
|||
---|---|---|---|
#18+
аддддддддд как же мало инфы то... Получилось только завести hortonworks HDP2.4 и импортнуть туда данные из mysql дальше хочу забубенить кластер ставлю еще 1 HDP2.4, но они по умолчанию ставятся с кластером по дефолту и уже своим Hostname, меняю hostname чтобы подвязать к кластеру, все сервисы падают, так как походу где-то есть глобальная привязка Hadoopa к старому Hostname /////////dsfsd/gfdfgfd/////// ... |
|||
:
Нравится:
Не нравится:
|
|||
27.04.2016, 15:45 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624дальше хочу забубенить кластер ставлю еще 1 HDP2.4, но они по умолчанию ставятся с кластером по дефолту и уже своим Hostname, меняю hostname чтобы подвязать к кластеру, все сервисы падают, так как походу где-то есть глобальная привязка Hadoopa к старому Hostname Путь самурая. А что, CDH на linux никак не ставится? Hadoop предполагает забыть про винду :) ... |
|||
:
Нравится:
Не нравится:
|
|||
27.04.2016, 15:50 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tomin, Так я на винде ниче и не ставлю все на виртуалках(ubuntu,centos), попробую еще 1 путь:) ... |
|||
:
Нравится:
Не нравится:
|
|||
27.04.2016, 16:18 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Шел 4 день:) В итоге завел я кластер пока из 2 нодов(еще 3 планирую накинуть), все ок, кроме 1 нюанса, в статусе мониторинга висит 1 ошибка : авторBad : 703 under replicated blocks in the cluster. 706 total blocks in the cluster. Percentage under replicated blocks: 99.58%. Critical threshold: 60.00%. что-то обгуглился ниче не помогает, может кто сталкивался? 1.И еще кто как грузит данные, с помощью hue и sqoop? 2.Как вытаскивать данные из hadoop например в системе Cognos так же с помощью jdbc драйвера? 3.Как делать бекапы данных? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2016, 17:57 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624Шел 4 день:) В итоге завел я кластер пока из 2 нодов(еще 3 планирую накинуть), все ок, кроме 1 нюанса, в статусе мониторинга висит 1 ошибка : авторBad : 703 under replicated blocks in the cluster. 706 total blocks in the cluster. Percentage under replicated blocks: 99.58%. Critical threshold: 60.00%. что-то обгуглился ниче не помогает, может кто сталкивался? Вроде как меньше трёх нод это не кластер. Каждый блок должен быть на трёх разных нодах, иначе hdfs обижается. mishanya36241.И еще кто как грузит данные, с помощью hue и sqoop? 2.Как вытаскивать данные из hadoop например в системе Cognos так же с помощью jdbc драйвера? 3.Как делать бекапы данных? В hdfs их можно залить чем угодно- просто открываешь файл в hdfs клиентом и пишешь. Дальше- по вкусу. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2016, 20:44 |
|
Hadoop
|
|||
---|---|---|---|
#18+
3.Как делать бекапы данных? Разворачиваешь второй кластер и переносишь файлики с помощью distcp. Bad : 703 under replicated blocks in the cluster. 706 total blocks in the cluster. Percentage under replicated blocks: 99.58%. Critical threshold: 60.00%. У тебя по умолчанию выставлен фактор репликации 3. На двух нодах физически невозможно его соблюсти. Подними хотя бы четыре ноды или уменьши фактор репликации. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2016, 13:07 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, уменьшал фактор репликации, не помогло.. в общем буду заново делать кластер сразу с 5 нодами, там посмотрим, ибо отправили меня на отдельный гипервизор все это дело переподымать. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2016, 13:12 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624, Можете сказать какая нужна минимальная конфигурация сервера чтобы взлетели 1 мастер и 3 годы Как я понял из сообщений меньше делать смысла нет ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2016, 23:27 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, всего 3 нода вместе с мастером, но рекомендация 4 нода для кластера(соответсвено вместе с мастером) но по мне так 7-10 нодов, тогда будет существенный прирост производительности в выборке из базы размером около 1 тб по сравнению с mssql и oracle, но это я еще тестировать буду, пока догадки только. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.04.2016, 00:50 |
|
Hadoop
|
|||
---|---|---|---|
#18+
при чем мастеру рекомендуется давать 24 гб оперативки с запасом для будущего. 8 мало, 16 норм для 3 сторонних нодов, это я все сделал выводы из логов и мониторинга кластера. все только пока имперический опыт. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.04.2016, 00:55 |
|
Hadoop
|
|||
---|---|---|---|
#18+
есть кластер 5 нодов, все ок. Но не хочет импортировать данные из mysql, что может быть не так? авторroot@Hadoopmaster:~# sqoop import --connect jdbc:mysql://192.168.3.224:3305/tc-db-main --driver com.mysql.jdbc.Driver --username root --table smtrans --hive-import Warning: /opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail. Please set $ACCUMULO_HOME to the root of your Accumulo installation. 16/05/05 15:06:46 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6-cdh5.7.0 16/05/05 15:06:46 INFO tool.BaseSqoopTool: Using Hive-specific delimiters for output. You can override 16/05/05 15:06:46 INFO tool.BaseSqoopTool: delimiters with --fields-terminated-by, etc. 16/05/05 15:06:46 INFO teradata.TeradataManagerFactory: Loaded connector factory for 'Cloudera Connector Powered by Teradata' on version 1.5c5 16/05/05 15:06:46 WARN sqoop.ConnFactory: Parameter --driver is set to an explicit driver however appropriate connection manager is not being set (via --connection-manager). Sqoop is going to fall back to org.apache.sqoop.manager.GenericJdbcManager. Please specify explicitly which connection manager should be used next time. 16/05/05 15:06:46 INFO manager.SqlManager: Using default fetchSize of 1000 16/05/05 15:06:46 INFO tool.CodeGenTool: Beginning code generation 16/05/05 15:06:47 INFO manager.SqlManager: Executing SQL statement: SELECT t.* FROM smtrans AS t WHERE 1=0 16/05/05 15:06:47 INFO manager.SqlManager: Executing SQL statement: SELECT t.* FROM smtrans AS t WHERE 1=0 16/05/05 15:06:47 INFO orm.CompilationManager: HADOOP_MAPRED_HOME is /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce Note: /tmp/sqoop-root/compile/373d7e9a3abd6277a59eadd661839a7b/smtrans.java uses or overrides a deprecated API. Note: Recompile with -Xlint:deprecation for details. 16/05/05 15:06:49 INFO orm.CompilationManager: Writing jar file: /tmp/sqoop-root/compile/373d7e9a3abd6277a59eadd661839a7b/smtrans.jar 16/05/05 15:06:49 INFO mapreduce.ImportJobBase: Beginning import of smtrans 16/05/05 15:06:49 INFO Configuration.deprecation: mapred.jar is deprecated. Instead, use mapreduce.job.jar 16/05/05 15:06:49 INFO manager.SqlManager: Executing SQL statement: SELECT t.* FROM smtrans AS t WHERE 1=0 16/05/05 15:06:50 INFO Configuration.deprecation: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps 16/05/05 15:06:50 INFO client.RMProxy: Connecting to ResourceManager at Hadoopmaster.icexpert.local/192.168.1.84:8032 16/05/05 15:06:50 WARN security.UserGroupInformation: PriviledgedActionException as:root (auth:SIMPLE) cause:org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkFsPermission(DefaultAuthorizationProvider.java:281) at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:262) at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:242) at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkPermission(DefaultAuthorizationProvider.java:169) at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:152) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6590) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6572) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkAncestorAccess(FSNamesystem.java:6524) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInternal(FSNamesystem.java:4322) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInt(FSNamesystem.java:4292) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:4265) at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:867) at org.apache.hadoop.hdfs.server.namenode.AuthorizationProviderProxyClientProtocol.mkdirs(AuthorizationProviderProxyClientProtocol.java:322) at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.mkdirs(ClientNamenodeProtocolServerSideTranslatorPB.java:603) at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java) at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617) at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2086) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2082) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2080) 16/05/05 15:06:50 ERROR tool.ImportTool: Encountered IOException running import job: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkFsPermission(DefaultAuthorizationProvider.java:281) at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:262) at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:242) at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkPermission(DefaultAuthorizationProvider.java:169) at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:152) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6590) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6572) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkAncestorAccess(FSNamesystem.java:6524) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInternal(FSNamesystem.java:4322) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInt(FSNamesystem.java:4292) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:4265) at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:867) at org.apache.hadoop.hdfs.server.namenode.AuthorizationProviderProxyClientProtocol.mkdirs(AuthorizationProviderProxyClientProtocol.java:322) at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.mkdirs(ClientNamenodeProtocolServerSideTranslatorPB.java:603) at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java) at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617) at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2086) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2082) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2080) at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) at java.lang.reflect.Constructor.newInstance(Constructor.java:526) at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:106) at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:73) at org.apache.hadoop.hdfs.DFSClient.primitiveMkdir(DFSClient.java:3084) at org.apache.hadoop.hdfs.DFSClient.mkdirs(DFSClient.java:3049) at org.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:957) at org.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:953) at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81) at org.apache.hadoop.hdfs.DistributedFileSystem.mkdirsInternal(DistributedFileSystem.java:953) at org.apache.hadoop.hdfs.DistributedFileSystem.mkdirs(DistributedFileSystem.java:946) at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:133) at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:148) at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1307) at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1304) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693) at org.apache.hadoop.mapreduce.Job.submit(Job.java:1304) at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1325) at org.apache.sqoop.mapreduce.ImportJobBase.doSubmitJob(ImportJobBase.java:196) at org.apache.sqoop.mapreduce.ImportJobBase.runJob(ImportJobBase.java:169) at org.apache.sqoop.mapreduce.ImportJobBase.runImport(ImportJobBase.java:266) at org.apache.sqoop.manager.SqlManager.importTable(SqlManager.java:692) at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:497) at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:605) at org.apache.sqoop.Sqoop.run(Sqoop.java:143) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:179) at org.apache.sqoop.Sqoop.runTool(Sqoop.java:218) at org.apache.sqoop.Sqoop.runTool(Sqoop.java:227) at org.apache.sqoop.Sqoop.main(Sqoop.java:236) Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkFsPermission(DefaultAuthorizationProvider.java:281) at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:262) at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:242) at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkPermission(DefaultAuthorizationProvider.java:169) at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:152) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6590) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6572) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkAncestorAccess(FSNamesystem.java:6524) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInternal(FSNamesystem.java:4322) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInt(FSNamesystem.java:4292) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:4265) at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:867) at org.apache.hadoop.hdfs.server.namenode.AuthorizationProviderProxyClientProtocol.mkdirs(AuthorizationProviderProxyClientProtocol.java:322) at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.mkdirs(ClientNamenodeProtocolServerSideTranslatorPB.java:603) at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java) at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617) at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2086) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2082) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2080) at org.apache.hadoop.ipc.Client.call(Client.java:1471) at org.apache.hadoop.ipc.Client.call(Client.java:1408) at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:230) at com.sun.proxy.$Proxy15.mkdirs(Unknown Source) at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.mkdirs(ClientNamenodeProtocolTranslatorPB.java:544) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:606) at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:256) at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:104) at com.sun.proxy.$Proxy16.mkdirs(Unknown Source) at org.apache.hadoop.hdfs.DFSClient.primitiveMkdir(DFSClient.java:3082) ... 27 more ... |
|||
:
Нравится:
Не нравится:
|
|||
05.05.2016, 22:09 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624, Так вроде на accumulated и ругается Please set $ACCUMULO_HOME to the root of your Accumulo installation. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.05.2016, 23:20 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, с этим тоже возился, где только не пробовал указывать этот путь... ... |
|||
:
Нравится:
Не нравится:
|
|||
06.05.2016, 14:02 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624, Ну как получилось? Я щас развернул virtual box и пытаюсь установить clouded на cents 7.2 ... |
|||
:
Нравится:
Не нравится:
|
|||
08.05.2016, 22:39 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, Нет пока с импортом не получилось, ругается и все, внутри кластера все работает, ошибок нет, базы и таблицы вручную создаются. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.05.2016, 11:57 |
|
Hadoop
|
|||
---|---|---|---|
#18+
таки победил, косяк с правами на чтение блоков hdfs Такой вопрос, как импортировать целиком базу, а не выборочно по таблицам? ... |
|||
:
Нравится:
Не нравится:
|
|||
10.05.2016, 13:10 |
|
Hadoop
|
|||
---|---|---|---|
#18+
без all-tables, хочу взять базу и залить ее целиком в определенную базу hadoop, не в default ... |
|||
:
Нравится:
Не нравится:
|
|||
10.05.2016, 13:37 |
|
Hadoop
|
|||
---|---|---|---|
#18+
ну ведь знаете, хорош молчать:) получилось все таблицы из базы залить, но каждую создавать на базе файла это капец, ибо их у меня порядка 100 штук. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.05.2016, 17:35 |
|
Hadoop
|
|||
---|---|---|---|
#18+
В общем смысл думаю следующий, закачиваем все таблицы на кластер в нужную директорию и потом множестевенными запросами типа LOAD DATA INPATH тралалалала , которых будет столько сколько таблиц + ко всему перед этим должны быть созданы таблицы для соответсвующей заливки. Не ну это жесть конечно... ... |
|||
:
Нравится:
Не нравится:
|
|||
11.05.2016, 09:43 |
|
Hadoop
|
|||
---|---|---|---|
#18+
полумертвая ветка:) разговоры отщипенцев самих с собой, итак положил кластер свой из-за невозможности подключения jdbc к mssql требовал 8 java установил, нерезапустил кластер и досвидос....страдания продолжаются ... |
|||
:
Нравится:
Не нравится:
|
|||
11.05.2016, 17:05 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Танцы с бубном и многое другое таки поднял обратно кластер, что приятно данные все остались, но пришлось hive создать новую директорию. поехали дальше импортировать теперь из mssql , есть идея заполнить данные скриптом с помощью списка всех таблиц из базы, пока не пойму, как так же создать столько голых таблиц с нужными столбцами и типами данных...в голову приходить выгрузить всю спецификацию в xml и распарсить питоном в pig, короче пока нихрена не ясно одни догатки, надо пробовать. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.05.2016, 00:26 |
|
Hadoop
|
|||
---|---|---|---|
#18+
к mssql подключился, полет нормальный, разбираюсь дальше... ... |
|||
:
Нравится:
Не нравится:
|
|||
12.05.2016, 02:20 |
|
Hadoop
|
|||
---|---|---|---|
#18+
первые тесты: таблица 12 гб 67 лямов записей обычный запрос: Код: sql 1. 2. 3.
MSSQL(сервер не загруженный, тестовый 16 гиг оперы 2 проца) - 3.40 минуты Hadoop(5нодов): Hive: 2.28 мин Impala: 1-2 секунды Итог поиска: 3,5 ляма записей Hive конечно тормоз еще тот со своим мапредьюсом(конечно может если вручную писать все мапы и редьюсы все будет быстро, но из коробки все медлено), impala прям порадовала крутяцки. Все понятно что это шелуха для хадупа, но все же для последующих искателей себя в бигдата:) И еще нет ли какой утилиты для более удобного отслеживания выполненных запросов(время ресурсы), а то бегать между hive и impala не оч удобно? ... |
|||
:
Нравится:
Не нравится:
|
|||
13.05.2016, 17:02 |
|
Hadoop
|
|||
---|---|---|---|
#18+
ну конечно же это время до вывода первичной информации ... |
|||
:
Нравится:
Не нравится:
|
|||
13.05.2016, 17:06 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624 И еще нет ли какой утилиты для более удобного отслеживания выполненных запросов(время ресурсы), а то бегать между hive и impala не оч удобно? Cloudera manager) ... |
|||
:
Нравится:
Не нравится:
|
|||
13.05.2016, 22:54 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, это понятно:) но там не удобно грю между ними прыгать, нет ли общего лога по запросам? во, коли хоть кто-то заглянул на огонек, может подскажешь, как целиком базу залить со всеми таблицами в отдельно созданную в хадупе, а не в дефолтную?без всяких извращений. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.05.2016, 23:05 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624haXbat, во, коли хоть кто-то заглянул на огонек, может подскажешь, как целиком базу залить со всеми таблицами в отдельно созданную в хадупе, а не в дефолтную?без всяких извращений. Без извращений не знаю: гружу через shell+ssh) ... |
|||
:
Нравится:
Не нравится:
|
|||
14.05.2016, 17:38 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, если не трудно приведи пример своей загрузки. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.05.2016, 20:39 |
|
Hadoop
|
|||
---|---|---|---|
#18+
[quot mishanya3624]первые тесты: таблица 12 гб 67 лямов записей обычный запрос: Код: sql 1. 2. 3.
А можно сделать на mssql openqerry ? и 2 подключения к хейву и импале? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.05.2016, 21:25 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, к импале нет опенсорсного драйвера, только для hive я пытаюсь подцепить hadoop к cognos, там возможен только пока hive драйвер, jdbc odbc пока не получается отдельно настроить. вывести данные через openqwery 1 раз попробовал не получилось, надо правильную строку подключения для линкед сервера написать, пока нужды нет такой, думаю возможно. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.05.2016, 22:52 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Получилось подцепить hadoop к Cognos BI , данные прилетают, но есть косяк небольшой с blob столбцами, для них нужен индекс, а в хадупе они у меня уже как стринг импортированны, можно ли добавить столбец индекса в хадупе? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 10:52 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624haXbat, если не трудно приведи пример своей загрузки. Код: powershell 1. 2.
На переменную ${hdfs_dir} уже нацелена hive таблица (stored as textfile), которая повторяет структуру исходной таблицы из mysql. Следующим шагом идет конвертация из textfile в parquet, раскладывание данных по партициям, парсинг json-колонок и другие преобразования сырых данных. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 11:31 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, спасибо,надо будет попробовать... Такой вопрос для возможности update delete необходимо создать соответствующую таблицу с определенными свойствами. create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true'); то есть делаем кластерный индекс с возможностью транзакций таблицы, а вот что на buckets и что зависит от цифры перед ним? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 15:58 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624haXbat, спасибо,надо будет попробовать... Такой вопрос для возможности update delete необходимо создать соответствующую таблицу с определенными свойствами. create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true'); то есть делаем кластерный индекс с возможностью транзакций таблицы, а вот что на buckets и что зависит от цифры перед ним? ACID для hive он же сырой вообще, я вообще не вижу в нем особо смысла пока. Так что те DDL, которые не поддерживает Impala, не использую. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 16:31 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, то есть используете только insert? для работы с impala используете Hue, командной строкой пользуетесь? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 16:35 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624первые тесты: таблица 12 гб 67 лямов записей обычный запрос: Код: sql 1. 2. 3.
MSSQL(сервер не загруженный, тестовый 16 гиг оперы 2 проца) - 3.40 минуты Hadoop(5нодов): Hive: 2.28 мин Impala: 1-2 секунды Итог поиска: 3,5 ляма записейИнтересно проверить на СУБД Caché с задействованием индексов iFind/iKnow. В своё время делал тесты для подобного поиска: 15886647 . ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 16:50 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624haXbat, то есть используете только insert? для работы с impala используете Hue, командной строкой пользуетесь? Insert overwrite + партицирование. Hue - пользователи/аналитика для кастомных запросов, вся разработка в консоле. В hue баг на баге и багом погоняет. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 16:57 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, у меня все получилось, настроил Linked server, могу вытаскивать данные в SSMS. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 18:07 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, в импала с командной строки , как заходите? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 18:08 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624мигель1, у меня все получилось, настроил Linked server, могу вытаскивать данные в SSMS. Это офигенно! А Вас не затруднит описать , что же Вы делали почти месяц ) Чтобы в итоге все получилось ... |
|||
:
Нравится:
Не нравится:
|
|||
16.05.2016, 18:47 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, спасибо! у вас нет случайно impala drivera&^) ... |
|||
:
Нравится:
Не нравится:
|
|||
17.05.2016, 01:44 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, 1. Ставим на сервер MSSQL драйвер Hive 2. Создаем ODBC драйвер для Hadoopmaster сервер 3. Создаем LInkedServer http://sqlmag.com/business-intelligence/integrating-hadoop-sql-server Очень важно, чтобы таблица в Hadoop была TBLPROPERTIES('transactional'='true') Все другие будут вылетать в ошибку. Это одна сторона, но если она TBLPROPERTIES('transactional'='true'), то с ней не сможет работать impala:) То есть выбор за вами, что важнее. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.05.2016, 17:32 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624мигель1, 1. Ставим на сервер MSSQL драйвер Hive 2. Создаем ODBC драйвер для Hadoopmaster сервер 3. Создаем LInkedServer http://sqlmag.com/business-intelligence/integrating-hadoop-sql-server Очень важно, чтобы таблица в Hadoop была TBLPROPERTIES('transactional'='true') Все другие будут вылетать в ошибку. Это одна сторона, но если она TBLPROPERTIES('transactional'='true'), то с ней не сможет работать impala:) То есть выбор за вами, что важнее. Я думаю надо еще покапать, странно как то, чтобы или то работало или это... ... |
|||
:
Нравится:
Не нравится:
|
|||
17.05.2016, 17:50 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, impala наотрез не хочет работать с ACID... Если что накопаешь, пиши. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.05.2016, 17:53 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Подскажите, пожалуйста, в каком формате лучше держать структурированные данные телеметрии. За день набегает по 5-6 млн. записей (где-то по 7GB сырых данных в месяц). AVRO не понравился, не поддерживает TIMESTAMP (в требованиях время до милисекунды). Данные нужны для аналитики (накопил и агрегируй), но возможно в дальнейшем потребуется стримить из источника. Пока играю с Parquet, но он вроде колоночный. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2016, 16:50 |
|
Hadoop
|
|||
---|---|---|---|
#18+
YuriN.Подскажите, пожалуйста, в каком формате лучше держать структурированные данные телеметрии. За день набегает по 5-6 млн. записей (где-то по 7GB сырых данных в месяц). AVRO не понравился, не поддерживает TIMESTAMP (в требованиях время до милисекунды). Данные нужны для аналитики (накопил и агрегируй), но возможно в дальнейшем потребуется стримить из источника. Пока играю с Parquet, но он вроде колоночный. Можно заюзать HPE Vertica Comminity Edition бесплатный. Поддерживает отказоустойчивый с зеркалированием кластер из 3 серверов + возможность загружать и анализировать средствами SQL до 1 тб сырых данных. С Вашими объемами хватит на много лет. Даже если не делать кластер и крутить БД на одном только сервере, все будет летать и по загрузке данных в реалтайм и по анализу всего массива данных. Вполне хороший вариант для телекомов, реалтайм сборов данных и т.д. Инсталляций в РФ уже полно на базе коммунити в проде компаний различных. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.05.2016, 13:41 |
|
Hadoop
|
|||
---|---|---|---|
#18+
270 лямов записей 50 гб таблица Код: sql 1.
hiveimpala14 минут270 сек все с командной строки ... |
|||
:
Нравится:
Не нравится:
|
|||
24.05.2016, 18:12 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кто-нибудь работает с hadoop с помощью Python скриптов? Если да, поделитесь парочкой скриптов для наглядности и простое описание к ним. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 09:58 |
|
Hadoop
|
|||
---|---|---|---|
#18+
вот еще вопрос: всего в hive у меня данных на 67 гб а hdfs кластера загружен на все 265 , это так называемое зеркалирование он делает, для отказоустойчивости? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 11:02 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624вот еще вопрос: всего в hive у меня данных на 67 гб а hdfs кластера загружен на все 265 , это так называемое зеркалирование он делает, для отказоустойчивости? Нет, не то. Это информация без учёта зеркалирования (т.е. реально на диске в 3 раза больше занято). А чтобы понять, где место теряется - надо выполнить сначала sudo -u hdfs hadoop fs -ls -h / (sudo чтобы видеть все папки) а потом для каждой смотреть, что там sudo -u hdfs hadoop fs -count -h /user/* и т.п. Из-за какой-то баги попытка посмотреть с корня приводит к ошибке, т.е. так нельзя: sudo -u hdfs hadoop fs -count -h /* а дальше "вглубь" можно. В общем- поисследуй hdfs- полезно будет. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 12:02 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tomin, именно так и смотрел, перепроверил все через FileBrowers в Hew, там папка user занимает 67 гб все остальное по мелочам: Код: powershell 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96.
... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 13:17 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Код: powershell 1. 2.
... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 13:43 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Не понимаю откуда такие цифры.... ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 13:52 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624 Код: powershell 1. 2. 3. 4. 5. 6.
Теперь смотри sudo -u hdfs hadoop fs -count -h /user/hive/* ну и root/* - так и доберёшься :) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 14:46 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624, Да, в хадупе лёгких ответов обычно нет. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 14:47 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tomin, так нет смысла дальше смотреть... видно же , что общий объем 67 гб, а что занимает эти 67 гб уже не важно... важно что занимает из 265 - 67, то есть 200 гб непонятно чем забиты, и тем, что не связанно с hdfs ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 14:52 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Код: powershell 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
а что это за путь : /dev/mapper/Hadoop--vg-root? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2016, 15:19 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Для себя, создаю еще 1 кластер с помощью Ambari, хочу из него сделать бекап кластер основного. Я так понимаю, ту машину на которой стоит сам Ambari в кластер не надо включать, она чисто служит, как manager cluster? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2016, 13:56 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624, можно включать. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2016, 14:29 |
|
Hadoop
|
|||
---|---|---|---|
#18+
очередные танцы с бубном, ошибки, ошибки, ошибки, но таки поднял кластер. Подскажите, как теперь настроить бекапирование с одного кластера на другой? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2016, 17:16 |
|
Hadoop
|
|||
---|---|---|---|
#18+
mishanya3624очередные танцы с бубном, ошибки, ошибки, ошибки, но таки поднял кластер. Подскажите, как теперь настроить бекапирование с одного кластера на другой? RTFM distcp ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2016, 17:28 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbat, а если у меня второй кластер голый HDP, а не cloudera, получится бекапить cloudera на него? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2016, 17:30 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Почему заглохла тема? Говорят спарк2 сделали. теперь еще быстрее ) а у меня столкьо работы, что некогда клоудерой занятся (( На выходных попробую продолжить установку ... |
|||
:
Нравится:
Не нравится:
|
|||
13.07.2016, 19:17 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Скачал cloudera-manager-installer.bin ... |
|||
:
Нравится:
Не нравится:
|
|||
18.07.2016, 20:27 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, запустил, установил. иду на порт 7180 и что то от меня клоудерка хочет ... |
|||
:
Нравится:
Не нравится:
|
|||
18.07.2016, 20:46 |
|
Hadoop
|
|||
---|---|---|---|
#18+
имхо полезно маны читать перед тем как мигель1скачал, запустил, установил. Introduction to Cloudera Manager Installation ... |
|||
:
Нравится:
Не нравится:
|
|||
18.07.2016, 22:04 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Дедушкаимхо полезно маны читать перед тем как мигель1скачал, запустил, установил. Introduction to Cloudera Manager Installation Читал, но там все общо. Вообщем прописал localhost заработало. потом поставил single mod, стоит? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.07.2016, 19:50 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1потом поставил single mod, стоит? Для single-mode достаточно в проект hadoop-core включить и дёргать org.apache.hadoop.util.ToolRunner. Вообще ничего ставить не надо. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2016, 06:32 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominмигель1потом поставил single mod, стоит? Для single-mode достаточно в проект hadoop-core включить и дёргать org.apache.hadoop.util.ToolRunner. Вообще ничего ставить не надо. Простите что и чем дергать? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.07.2016, 14:39 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1Alexey Tominпропущено... Для single-mode достаточно в проект hadoop-core включить и дёргать org.apache.hadoop.util.ToolRunner. Вообще ничего ставить не надо. Простите что и чем дергать? Из java запускать ToolRunner и далее точно можно выполнять m/r и pig. Остальное не пробовал. Без установки хадупа вообще. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.07.2016, 11:49 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominмигель1пропущено... Простите что и чем дергать? Из java запускать ToolRunner и далее точно можно выполнять m/r и pig. Остальное не пробовал. Без установки хадупа вообще. Понятно. не я хочу нормально сделать. Вообщем удалил виртуальную машину, решил заноново все сделать. Уже без single mod ... |
|||
:
Нравится:
Не нравится:
|
|||
22.07.2016, 12:23 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Installation failed. Failed to receive heartbeat ... |
|||
:
Нравится:
Не нравится:
|
|||
26.07.2016, 16:34 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, Решил проблему https://community.cloudera.com/t5/Cloudera-Manager-Installation/Installation-failed-Failed-to-receive-heartbeat-from-agent/td-p/805 вкратце ifconfig -a /etc/hosts --10.x.x.227 name1.domain name1 hostname name1 hostname -f netstat -apn | grep 9001 kill -9 6330 service cloudera-scm-agent restart пошел устанавливать дальше ... |
|||
:
Нравится:
Не нравится:
|
|||
26.07.2016, 18:34 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Установил ) Что ему нужно ) Concerning : NameNode summary: name0.domain (Availability: Active, Health: Concerning). This health test reflects the health of the active NameNode. почему не good? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.07.2016, 20:12 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, И теперь вопрос , что делать дальше? Как в клоудере создать таблицы? Как наполнить данными из flume, sqoope вообщем начало пути) ... |
|||
:
Нравится:
Не нравится:
|
|||
27.07.2016, 21:02 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, Вообщем создал я табличку в hue, написал запрос. отработал. (отмечу что есть загвоздка, что создается на sql hive не всегда актуально для sql imapala) Скачал impala odbc driver для mssql 2012 Далее я пытаюсь подключится через к серверу прописываю host виртуальной машины 192.168.. port 21050 получаю ошибку. Слушаю порты и вижу запись tcp6 0.0.0.0 21050 Если я правильно понял, порт висит на ipv6 значит нужно отключить ipv6, чтобы была такая строчка: 192.168... 21050 Верно? ... |
|||
:
Нравится:
Не нравится:
|
|||
18.08.2016, 23:42 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, нет, пробелма в другом экосистема хадуп не поддерживает ipv6 и вообще фаервол лучше отключать service iptabels status service ip6tables status service iptabels stop service ip6tables stop chkconfig iptables off chkconfig ip6tables off ... |
|||
:
Нравится:
Не нравится:
|
|||
19.08.2016, 17:40 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, Может проблема в авторизации? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.08.2016, 15:47 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, Решил проблему скачав cloudera quick Все заработало ) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2016, 15:48 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, appendToFile добавляет с заголовком. можно как то исключить первую строку? ... |
|||
:
Нравится:
Не нравится:
|
|||
07.09.2016, 18:36 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1, Правильно ли я понимаю что "load data indath" не копирует файл в импалу ,а переносит, т.е. сам файлик не сохраняется? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.09.2016, 17:18 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1мигель1, Правильно ли я понимаю что "load data indath" не копирует файл в импалу ,а переносит, т.е. сам файлик не сохраняется? Да The loaded data files are moved, not copied, into the Impala data directory. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.09.2016, 17:20 |
|
Hadoop
|
|||
---|---|---|---|
#18+
node в режиме safemode. Как отключить? hdfs dfsadmin -safemode leave ... |
|||
:
Нравится:
Не нравится:
|
|||
09.09.2016, 14:13 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Вообщем я сделал следующее, сделал 2 машины : "cloudera quick " и "cloudera manager" у "cloudera quick" есть 2 (manager и worker) причем IP одинаковый у "cloudera manager" есть 1 (host) как я понимаю = manager Вопрос: как добавить worker т.е как я понимаю Node ... |
|||
:
Нравится:
Не нравится:
|
|||
09.09.2016, 14:49 |
|
|
start [/forum/topic.php?all=1&fid=48&tid=1856735]: |
0ms |
get settings: |
10ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
188ms |
get topic data: |
13ms |
get forum data: |
2ms |
get page messages: |
121ms |
get tp. blocked users: |
2ms |
others: | 11ms |
total: | 370ms |
0 / 0 |