powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop
138 сообщений из 138, показаны все 6 страниц
Hadoop
    #38968394
navio
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги подскажите хадуп можно поставить на существующую ОС ?

Форматирование Hadoop File System не приведет к форматированию текущего диска ?
...
Рейтинг: 0 / 0
Hadoop
    #38968451
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
navioКоллеги подскажите хадуп можно поставить на существующую ОС ?

Форматирование Hadoop File System не приведет к форматированию текущего диска ?Можно, на Linux, только версия должна быть поддерживаемой.
Не приведет.
...
Рейтинг: 0 / 0
Hadoop
    #38969238
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
navioФорматирование Hadoop File System не приведет к форматированию текущего диска ?
HDFS работает поверх существующей файловой системы, по сути у вас просто будет директория в которой будут храниться файлы-блоки hdfs'a.
...
Рейтинг: 0 / 0
Hadoop
    #38970986
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги . Прочитал на хабре
"При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд"

Что подразумевается под словом "узел"?
сервер?
...
Рейтинг: 0 / 0
Hadoop
    #38971004
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1Коллеги . Прочитал на хабре
"При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд"

Что подразумевается под словом "узел"?
сервер?

Это может быть и виртуалкой :)
Так что называют "узел".
...
Рейтинг: 0 / 0
Hadoop
    #38971008
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominмигель1Коллеги . Прочитал на хабре
"При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд"

Что подразумевается под словом "узел"?
сервер?

Это может быть и виртуалкой :)
Так что называют "узел".


А как можно считать по "узлам/виртуалкам" если начинка может быть разной
одно дело 2 ядра 8 гб оперативки
а другое 24 ядра 512 гб оперативки?
...
Рейтинг: 0 / 0
Hadoop
    #38971110
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1одно дело 2 ядра 8 гб оперативки
а другое 24 ядра 512 гб оперативки?
Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.
...
Рейтинг: 0 / 0
Hadoop
    #38971124
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbatмигель1одно дело 2 ядра 8 гб оперативки
а другое 24 ядра 512 гб оперативки?
Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.

Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза?
Так?
...
Рейтинг: 0 / 0
Hadoop
    #38971268
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1haXbatпропущено...

Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.

Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза?
Так?
а что ставить собираетесь ? (Будет ли использовать решения от Cloudera, hortonworks или что- то другое) ?
...
Рейтинг: 0 / 0
Hadoop
    #38971416
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1haXbatпропущено...

Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.

Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза?
Так?

Но есть ньюанс :)
Не надо забывать, в map/reduce не 2 шага, а 3.
Промежуточный (переупорядочивание данных между узлами перед reduce) занимает некоторое время.
И оно не будет снижаться при увеличении числа узлов.
Поэтому рост будет не линейным, причём чем дальше- тем хуже.

Сравнение же с одним узлом, особенно без использование хадупа, ещё сложнее- т.к. у него накладных расходов своих очень много. Даже просто переход од одного узла к двум не даст *2 по скорости :)
Вообще для хадупа 4 узла- это по сути минимальная конфигурация. Меньше- это не показательно вообще (из-за особенностей хранения данных).

PS: а ещё не забываем, что хадуп запускает много больше потоков, чем узлов, и это тоже может принести как выигрыш по скорости, так и проблемы.
...
Рейтинг: 0 / 0
Hadoop
    #38977835
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Развернул Hortonworks Sandbox with HDP 2.2

щас ищу TSV файл миллиардом записей для теста ))
...
Рейтинг: 0 / 0
Hadoop
    #39120205
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkРазвернул Hortonworks Sandbox with HDP 2.2

щас ищу TSV файл миллиардом записей для теста ))

Вопрос. вот есть у меня данные в хадуп.
А что с ними делать дальше?

В mysql понятно: есть процедуры туда передаются параметры. select выводим пользователям в php

А есть бест практис как это организовать для хадупа?
...
Рейтинг: 0 / 0
Hadoop
    #39120213
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Есть предположение , что надо использовать Sqoop
Sqoop is a tool designed to import data from relational databases into Hadoop
...
Рейтинг: 0 / 0
Hadoop
    #39120270
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job
...
Рейтинг: 0 / 0
Hadoop
    #39120578
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkкириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.
...
Рейтинг: 0 / 0
Hadoop
    #39120624
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominкириллkкириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.

Не совсем понял.

hive-скрипт это sql запрос
а mr-job это ETL который hive-скрипт выполняется

При чем тут проигрыш?
...
Рейтинг: 0 / 0
Hadoop
    #39122801
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkAlexey Tominпропущено...


Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.

Не совсем понял.

hive-скрипт это sql запрос
а mr-job это ETL который hive-скрипт выполняется

При чем тут проигрыш?
Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально.
...
Рейтинг: 0 / 0
Hadoop
    #39122802
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominкириллkкириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.
А по времени?
...
Рейтинг: 0 / 0
Hadoop
    #39122830
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexAlexey Tominпропущено...


Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.
А по времени?

По времени в 4 раза, потому что изначальной задачей было не занимать полностью кластер :)
...
Рейтинг: 0 / 0
Hadoop
    #39122952
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apexкириллkпропущено...


Не совсем понял.

hive-скрипт это sql запрос
а mr-job это ETL который hive-скрипт выполняется

При чем тут проигрыш?
Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально.

А где можно прочитать про эти MR-Job?
...
Рейтинг: 0 / 0
Hadoop
    #39123201
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkApexпропущено...

Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально.

А где можно прочитать про эти MR-Job?

В гугле забанили? Вот , например.
...
Рейтинг: 0 / 0
Hadoop
    #39123214
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominкириллkпропущено...


А где можно прочитать про эти MR-Job?

В гугле забанили? Вот , например.

Ах! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать.
И потом я думал что нужно юзать spark sql, который быстрее map reduce
...
Рейтинг: 0 / 0
Hadoop
    #39123717
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkАх! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать.


И? Какое это имеет отношение к тому, что в конечном счете, что Hive, что Pig скрипты выполняются в виде серии MR-Job'ов?

кириллkИ потом я думал что нужно юзать spark sql, который быстрее map reduce

Это тут при чем?
...
Рейтинг: 0 / 0
Hadoop
    #39123909
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexкириллkАх! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать.


И? Какое это имеет отношение к тому, что в конечном счете, что Hive, что Pig скрипты выполняются в виде серии MR-Job'ов?

К тому что человек написал " hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам."
Смысл в этих hive-скриптах?

кириллkИ потом я думал что нужно юзать spark sql, который быстрее map reduce

Это тут при чем?

Как я понял смысл спарка уйти от методологии map reduce (могу ошибаться)
...
Рейтинг: 0 / 0
Hadoop
    #39124080
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkКак я понял смысл спарка уйти от методологии map reduce (могу ошибаться)

Уйти от движка mr, который хоть и неплохо едет, но запрягает уж ОЧЕНЬ долго.
Плюс Спарк умеет в памяти хранить данные...
...
Рейтинг: 0 / 0
Hadoop
    #39222063
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Приветствую!
Дабы не плодить тем...
Подскажите, для кластера hadoop возможно ли сделать например 10 серверов(нодов) и все на виртуалках(Vmware, в котором также создан кластер из нескольких гипервизоров)?
Сильно ли важно количество оперативной памяти по сравнению с процессорами?
И какое оптимально соотношение?
И есть ли смысл все пилить с нуля и настраивать самому, или же достаточно воспользоваться HDP_2.4 например?
...
Рейтинг: 0 / 0
Hadoop
    #39222315
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гуру hadoop вы где :)
...
Рейтинг: 0 / 0
Hadoop
    #39222332
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624,

Я думаю Вам стоит все попробовать и нам рассказать.
Единственное, я почти уверен что лучше взять готовую сборку клоудеры, чем самому все собирать
...
Рейтинг: 0 / 0
Hadoop
    #39222594
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1mishanya3624,

Я думаю Вам стоит все попробовать и нам рассказать.
Единственное, я почти уверен что лучше взять готовую сборку клоудеры, чем самому все собирать

ну или другую сборку от какого-нибудь вендора
...
Рейтинг: 0 / 0
Hadoop
    #39222801
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Пытаюсь поставить HUE на Hadoop, поставил пакет, изменил хост в конфиге , запустил hue, все ОК
Но когда вхожу на ip:8000 то вылетает эта страница:
Код: html
1.
2.
3.
4.
5.
6.
7.
8.
9.
NotImplementedError at /accounts/login/
Request Method:	GET
Request URL:	http://192.168.1.130:8000/accounts/login/?next=/dump_config
Django Version:	1.2.3
Exception Type:	NotImplementedError
Exception Value:	
Exception Location:	/usr/lib/hue/build/env/lib/python2.6/site-packages/Django-1.2.3-py2.6.egg/django/contrib/auth/models.py in save, line 427
Python Executable:	/usr/bin/python2.6
Python Version:	2.6.6



line 427

Код: java
1.
2.
    def save(self):
        raise NotImplementedError



Может у кого есть конфиги рабочие?
И есть ли аналог лучше hue?
...
Рейтинг: 0 / 0
Hadoop
    #39222937
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624,

Версия х.я какая?
...
Рейтинг: 0 / 0
Hadoop
    #39223463
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apex,
hue-2.6.1.2.4.0.0-169.el6.x86_64
...
Рейтинг: 0 / 0
Hadoop
    #39223518
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Обновитесь до третьей хотя бы.
...
Рейтинг: 0 / 0
Hadoop
    #39223704
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apex,

Package hue-2.6.1.2.4.0.0-169.el6.x86_64 already installed and latest version
Nothing to do

авторInstalled Packages
hue.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4
hue-beeswax.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4
hue-common.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4
hue-hcatalog.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4
hue-oozie.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4
hue-pig.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4
hue-sandbox.noarch 1.2.1-88 @sandbox
hue-server.x86_64 2.6.1.2.4.0.0-169.el6 @HDP-2.4
hue-tutorials.noarch 1.2.1-88 @sandbox
...
Рейтинг: 0 / 0
Hadoop
    #39223774
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
не пойму толи вендерлок на дальнейший update hue, толи хз, попробую поверх него отдельную 3.9 накатить.
...
Рейтинг: 0 / 0
Hadoop
    #39224160
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
поставил с нуля hadoop накатил hue, это конечно писец гемороина.
я правильно понимаю, что вот это старая версия - https://yandex.ru/images/search?text=hadoop hue&img_url=http://2.bp.blogspot.com/-AE49MfG0ZtM/UoO3Nbr-miI/AAAAAAAAA14/V3bipocogb8/s1600/File_Browser.jpg&pos=27&rpt=simage
А вот это новая - https://yandex.ru/images/search?text=hadoop hue&img_url=http://gethue.com/wp-content/uploads/2015/06/solr-bike-dashboard.png&pos=4&rpt=simage

И подскажите какого еще вендора можно попробовать, кроме hortonworks?
...
Рейтинг: 0 / 0
Hadoop
    #39224301
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624И подскажите какого еще вендора можно попробовать, кроме hortonworks?
Ну, собственно Cloudera и можно. Можно еще AWS EMR, но это в cloud.
...
Рейтинг: 0 / 0
Hadoop
    #39224355
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624И подскажите какого еще вендора можно попробовать, кроме hortonworks?

Для меня Cloudera - это вариант по-умолчанию. Не видел других вариантов в использовании.
Ставится предельно просто- типа "хочу" и получаешь хадуп.
Правда я пробовал это только под linux - собственно в окружающей меня действительности очень много разработчиков перешли на linux, чтобы не иметь проблем с hadoop - например, можно гонять unit-test'ы на локальной машине без установленного хадупа, но в нём (и почти всё работает так же- я нашёл только один небольшой ньюанс).
...
Рейтинг: 0 / 0
Hadoop
    #39224387
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominmishanya3624И подскажите какого еще вендора можно попробовать, кроме hortonworks?

Для меня Cloudera - это вариант по-умолчанию. Не видел других вариантов в использовании.
Ставится предельно просто- типа "хочу" и получаешь хадуп.
Правда я пробовал это только под linux - собственно в окружающей меня действительности очень много разработчиков перешли на linux, чтобы не иметь проблем с hadoop - например, можно гонять unit-test'ы на локальной машине без установленного хадупа, но в нём (и почти всё работает так же- я нашёл только один небольшой ньюанс).

В Cloudera есть Impala :-)
...
Рейтинг: 0 / 0
Hadoop
    #39224881
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А ставил кто-нибудь Cloudera на vmware я про esxi а не workstation?
...
Рейтинг: 0 / 0
Hadoop
    #39224926
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624А ставил кто-нибудь Cloudera на vmware я про esxi а не workstation?

Ставил
...
Рейтинг: 0 / 0
Hadoop
    #39225022
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tomin,

Что-то у меня не складывается с вендорами:)
качаю это: http://www.cloudera.com/downloads/quickstart_vms/5-7.html
дальше пытаюсь открыть на workstation или player на секунду начинает грузиться и вся нагрузка исчезает
закачиваю все на esxi он все жесткие конвертит в один размером 8 гб, делаю инвент виртуалки, запускаю, и вылетает ошибка, что не видит виртуальный диск, хотя он там есть :)
мзговынос какой-то, а не hadoop, конечно руки бы попримее, но довольствуемся, что есть...
Кто сталкивался с такой ерунддой?
У hortonwork все проще, скачиваешь готовый шаблон ovf и запускаешь, все проблем нет.
...
Рейтинг: 0 / 0
Hadoop
    #39225130
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624Alexey Tomin,

Что-то у меня не складывается с вендорами:)
качаю это: http://www.cloudera.com/downloads/quickstart_vms/5-7.html
дальше пытаюсь открыть на workstation или player на секунду начинает грузиться и вся нагрузка исчезает
закачиваю все на esxi он все жесткие конвертит в один размером 8 гб, делаю инвент виртуалки, запускаю, и вылетает ошибка, что не видит виртуальный диск, хотя он там есть :)
мзговынос какой-то, а не hadoop, конечно руки бы попримее, но довольствуемся, что есть...
Кто сталкивался с такой ерунддой?
У hortonwork все проще, скачиваешь готовый шаблон ovf и запускаешь, все проблем нет.

Мда. Всё же насколько проще жизнь в мире linux
...
Рейтинг: 0 / 0
Hadoop
    #39225183
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tomin,

если не трудно накидайте план установки.
...
Рейтинг: 0 / 0
Hadoop
    #39225236
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624Alexey Tomin,

если не трудно накидайте план установки.

А вот же он.

А для отладки ещё проще- для linux после подключения зависимостей хадупа через maven можно запускать m/r задачу вообще без установленного хадупа- понятное дело, что single mode, но windows почему-то лишена этого вообще.
Зато насколько упрощается отладка- это просто чудо! И map-задачи тебе, и UDF'ки для pig-скриптом- пошаговое исполнение, логи- всё есть.
...
Рейтинг: 0 / 0
Hadoop
    #39225262
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tomin,

блин, мне аж сегодня приснился разговор про Hadoop с тобой

так, я может не то пытался поставить, надо Cloudera Manager ставить, quiсkstart это не то?
...
Рейтинг: 0 / 0
Hadoop
    #39225551
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
еще вопрос, как сделать импорт в вновь созданную базу :
sqoop import-all-tables --connect jdbc:mysql://192.168.3.224:3305/tc-db-main --driver com.mysql.jdbc.Driver --username root --hive-import
так он все в базу defoult кидает, пробовал менять по всякому, не хотит...
...
Рейтинг: 0 / 0
Hadoop
    #39225571
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624Alexey Tomin,

блин, мне аж сегодня приснился разговор про Hadoop с тобой

так, я может не то пытался поставить, надо Cloudera Manager ставить, quiсkstart это не то?

Честно говоря, я обхожусь тем, который работает без установки вообще.
"Однонодовый" ставил, но как - уже забыл.
...
Рейтинг: 0 / 0
Hadoop
    #39225810
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
аддддддддд

как же мало инфы то...
Получилось только завести hortonworks HDP2.4
и импортнуть туда данные из mysql
дальше хочу забубенить кластер
ставлю еще 1 HDP2.4, но они по умолчанию ставятся с кластером по дефолту и уже своим Hostname, меняю hostname чтобы подвязать к кластеру, все сервисы падают, так как походу где-то есть глобальная привязка Hadoopa к старому Hostname
/////////dsfsd/gfdfgfd///////
...
Рейтинг: 0 / 0
Hadoop
    #39225818
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624дальше хочу забубенить кластер
ставлю еще 1 HDP2.4, но они по умолчанию ставятся с кластером по дефолту и уже своим Hostname, меняю hostname чтобы подвязать к кластеру, все сервисы падают, так как походу где-то есть глобальная привязка Hadoopa к старому Hostname

Путь самурая.
А что, CDH на linux никак не ставится?
Hadoop предполагает забыть про винду :)
...
Рейтинг: 0 / 0
Hadoop
    #39225863
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tomin,

Так я на винде ниче и не ставлю все на виртуалках(ubuntu,centos), попробую еще 1 путь:)
...
Рейтинг: 0 / 0
Hadoop
    #39226904
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Шел 4 день:)
В итоге завел я кластер пока из 2 нодов(еще 3 планирую накинуть), все ок, кроме 1 нюанса,
в статусе мониторинга висит 1 ошибка :
авторBad : 703 under replicated blocks in the cluster. 706 total blocks in the cluster. Percentage under replicated blocks: 99.58%. Critical threshold: 60.00%.

что-то обгуглился ниче не помогает, может кто сталкивался?

1.И еще кто как грузит данные, с помощью hue и sqoop?
2.Как вытаскивать данные из hadoop например в системе Cognos так же с помощью jdbc драйвера?
3.Как делать бекапы данных?
...
Рейтинг: 0 / 0
Hadoop
    #39227027
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624Шел 4 день:)
В итоге завел я кластер пока из 2 нодов(еще 3 планирую накинуть), все ок, кроме 1 нюанса,
в статусе мониторинга висит 1 ошибка :
авторBad : 703 under replicated blocks in the cluster. 706 total blocks in the cluster. Percentage under replicated blocks: 99.58%. Critical threshold: 60.00%.

что-то обгуглился ниче не помогает, может кто сталкивался?

Вроде как меньше трёх нод это не кластер. Каждый блок должен быть на трёх разных нодах, иначе hdfs обижается.

mishanya36241.И еще кто как грузит данные, с помощью hue и sqoop?
2.Как вытаскивать данные из hadoop например в системе Cognos так же с помощью jdbc драйвера?
3.Как делать бекапы данных?

В hdfs их можно залить чем угодно- просто открываешь файл в hdfs клиентом и пишешь. Дальше- по вкусу.
...
Рейтинг: 0 / 0
Hadoop
    #39227423
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
3.Как делать бекапы данных?
Разворачиваешь второй кластер и переносишь файлики с помощью distcp.

Bad : 703 under replicated blocks in the cluster. 706 total blocks in the cluster. Percentage under replicated blocks: 99.58%. Critical threshold: 60.00%.

У тебя по умолчанию выставлен фактор репликации 3. На двух нодах физически невозможно его соблюсти. Подними хотя бы четыре ноды или уменьши фактор репликации.
...
Рейтинг: 0 / 0
Hadoop
    #39227427
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

уменьшал фактор репликации, не помогло..
в общем буду заново делать кластер сразу с 5 нодами, там посмотрим, ибо отправили меня на отдельный гипервизор все это дело переподымать.
...
Рейтинг: 0 / 0
Hadoop
    #39227868
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624,
Можете сказать какая нужна минимальная конфигурация сервера чтобы взлетели
1 мастер и 3 годы
Как я понял из сообщений меньше делать смысла нет
...
Рейтинг: 0 / 0
Hadoop
    #39227887
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

всего 3 нода вместе с мастером, но рекомендация 4 нода для кластера(соответсвено вместе с мастером)
но по мне так 7-10 нодов, тогда будет существенный прирост производительности в выборке из базы размером около 1 тб по сравнению с mssql и oracle, но это я еще тестировать буду, пока догадки только.
...
Рейтинг: 0 / 0
Hadoop
    #39227889
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
при чем мастеру рекомендуется давать 24 гб оперативки с запасом для будущего.
8 мало, 16 норм для 3 сторонних нодов, это я все сделал выводы из логов и мониторинга кластера.
все только пока имперический опыт.
...
Рейтинг: 0 / 0
Hadoop
    #39230392
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
есть кластер 5 нодов, все ок.
Но не хочет импортировать данные из mysql, что может быть не так?
авторroot@Hadoopmaster:~# sqoop import --connect jdbc:mysql://192.168.3.224:3305/tc-db-main --driver com.mysql.jdbc.Driver --username root --table smtrans --hive-import
Warning: /opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail.
Please set $ACCUMULO_HOME to the root of your Accumulo installation.
16/05/05 15:06:46 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6-cdh5.7.0
16/05/05 15:06:46 INFO tool.BaseSqoopTool: Using Hive-specific delimiters for output. You can override
16/05/05 15:06:46 INFO tool.BaseSqoopTool: delimiters with --fields-terminated-by, etc.
16/05/05 15:06:46 INFO teradata.TeradataManagerFactory: Loaded connector factory for 'Cloudera Connector Powered by Teradata' on version 1.5c5
16/05/05 15:06:46 WARN sqoop.ConnFactory: Parameter --driver is set to an explicit driver however appropriate connection manager is not being set (via --connection-manager). Sqoop is going to fall back to org.apache.sqoop.manager.GenericJdbcManager. Please specify explicitly which connection manager should be used next time.
16/05/05 15:06:46 INFO manager.SqlManager: Using default fetchSize of 1000
16/05/05 15:06:46 INFO tool.CodeGenTool: Beginning code generation
16/05/05 15:06:47 INFO manager.SqlManager: Executing SQL statement: SELECT t.* FROM smtrans AS t WHERE 1=0
16/05/05 15:06:47 INFO manager.SqlManager: Executing SQL statement: SELECT t.* FROM smtrans AS t WHERE 1=0
16/05/05 15:06:47 INFO orm.CompilationManager: HADOOP_MAPRED_HOME is /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce
Note: /tmp/sqoop-root/compile/373d7e9a3abd6277a59eadd661839a7b/smtrans.java uses or overrides a deprecated API.
Note: Recompile with -Xlint:deprecation for details.
16/05/05 15:06:49 INFO orm.CompilationManager: Writing jar file: /tmp/sqoop-root/compile/373d7e9a3abd6277a59eadd661839a7b/smtrans.jar
16/05/05 15:06:49 INFO mapreduce.ImportJobBase: Beginning import of smtrans
16/05/05 15:06:49 INFO Configuration.deprecation: mapred.jar is deprecated. Instead, use mapreduce.job.jar
16/05/05 15:06:49 INFO manager.SqlManager: Executing SQL statement: SELECT t.* FROM smtrans AS t WHERE 1=0
16/05/05 15:06:50 INFO Configuration.deprecation: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps
16/05/05 15:06:50 INFO client.RMProxy: Connecting to ResourceManager at Hadoopmaster.icexpert.local/192.168.1.84:8032
16/05/05 15:06:50 WARN security.UserGroupInformation: PriviledgedActionException as:root (auth:SIMPLE) cause:org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkFsPermission(DefaultAuthorizationProvider.java:281)
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:262)
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:242)
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkPermission(DefaultAuthorizationProvider.java:169)
at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:152)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6590)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6572)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkAncestorAccess(FSNamesystem.java:6524)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInternal(FSNamesystem.java:4322)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInt(FSNamesystem.java:4292)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:4265)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:867)
at org.apache.hadoop.hdfs.server.namenode.AuthorizationProviderProxyClientProtocol.mkdirs(AuthorizationProviderProxyClientProtocol.java:322)
at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.mkdirs(ClientNamenodeProtocolServerSideTranslatorPB.java:603)
at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2086)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2082)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2080)

16/05/05 15:06:50 ERROR tool.ImportTool: Encountered IOException running import job: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkFsPermission(DefaultAuthorizationProvider.java:281)
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:262)
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:242)
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkPermission(DefaultAuthorizationProvider.java:169)
at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:152)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6590)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6572)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkAncestorAccess(FSNamesystem.java:6524)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInternal(FSNamesystem.java:4322)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInt(FSNamesystem.java:4292)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:4265)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:867)
at org.apache.hadoop.hdfs.server.namenode.AuthorizationProviderProxyClientProtocol.mkdirs(AuthorizationProviderProxyClientProtocol.java:322)
at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.mkdirs(ClientNamenodeProtocolServerSideTranslatorPB.java:603)
at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2086)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2082)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2080)

at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:106)
at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:73)
at org.apache.hadoop.hdfs.DFSClient.primitiveMkdir(DFSClient.java:3084)
at org.apache.hadoop.hdfs.DFSClient.mkdirs(DFSClient.java:3049)
at org.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:957)
at org.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:953)
at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
at org.apache.hadoop.hdfs.DistributedFileSystem.mkdirsInternal(DistributedFileSystem.java:953)
at org.apache.hadoop.hdfs.DistributedFileSystem.mkdirs(DistributedFileSystem.java:946)
at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:133)
at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:148)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1307)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1304)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:1304)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1325)
at org.apache.sqoop.mapreduce.ImportJobBase.doSubmitJob(ImportJobBase.java:196)
at org.apache.sqoop.mapreduce.ImportJobBase.runJob(ImportJobBase.java:169)
at org.apache.sqoop.mapreduce.ImportJobBase.runImport(ImportJobBase.java:266)
at org.apache.sqoop.manager.SqlManager.importTable(SqlManager.java:692)
at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:497)
at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:605)
at org.apache.sqoop.Sqoop.run(Sqoop.java:143)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:179)
at org.apache.sqoop.Sqoop.runTool(Sqoop.java:218)
at org.apache.sqoop.Sqoop.runTool(Sqoop.java:227)
at org.apache.sqoop.Sqoop.main(Sqoop.java:236)
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkFsPermission(DefaultAuthorizationProvider.java:281)
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:262)
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:242)
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkPermission(DefaultAuthorizationProvider.java:169)
at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:152)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6590)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkPermission(FSNamesystem.java:6572)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkAncestorAccess(FSNamesystem.java:6524)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInternal(FSNamesystem.java:4322)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInt(FSNamesystem.java:4292)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:4265)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:867)
at org.apache.hadoop.hdfs.server.namenode.AuthorizationProviderProxyClientProtocol.mkdirs(AuthorizationProviderProxyClientProtocol.java:322)
at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.mkdirs(ClientNamenodeProtocolServerSideTranslatorPB.java:603)
at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2086)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2082)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2080)

at org.apache.hadoop.ipc.Client.call(Client.java:1471)
at org.apache.hadoop.ipc.Client.call(Client.java:1408)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:230)
at com.sun.proxy.$Proxy15.mkdirs(Unknown Source)
at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.mkdirs(ClientNamenodeProtocolTranslatorPB.java:544)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:256)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:104)
at com.sun.proxy.$Proxy16.mkdirs(Unknown Source)
at org.apache.hadoop.hdfs.DFSClient.primitiveMkdir(DFSClient.java:3082)
... 27 more
С правами уже как только не игрался, Accumulo стоит...
...
Рейтинг: 0 / 0
Hadoop
    #39230419
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624,
Так вроде на accumulated и ругается

Please set $ACCUMULO_HOME to the root of your Accumulo installation.
...
Рейтинг: 0 / 0
Hadoop
    #39230859
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

с этим тоже возился, где только не пробовал указывать этот путь...
...
Рейтинг: 0 / 0
Hadoop
    #39231639
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624,

Ну как получилось?
Я щас развернул virtual box и пытаюсь установить clouded на cents 7.2
...
Рейтинг: 0 / 0
Hadoop
    #39232243
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

Нет пока с импортом не получилось, ругается и все, внутри кластера все работает, ошибок нет, базы и таблицы вручную создаются.
...
Рейтинг: 0 / 0
Hadoop
    #39232341
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
таки победил, косяк с правами на чтение блоков hdfs
Такой вопрос, как импортировать целиком базу, а не выборочно по таблицам?
...
Рейтинг: 0 / 0
Hadoop
    #39232385
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
без all-tables, хочу взять базу и залить ее целиком в определенную базу hadoop, не в default
...
Рейтинг: 0 / 0
Hadoop
    #39232690
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ну ведь знаете, хорош молчать:)
получилось все таблицы из базы залить, но каждую создавать на базе файла это капец, ибо их у меня порядка 100 штук.
...
Рейтинг: 0 / 0
Hadoop
    #39233045
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В общем смысл думаю следующий, закачиваем все таблицы на кластер в нужную директорию и потом множестевенными запросами типа
LOAD DATA INPATH тралалалала , которых будет столько сколько таблиц + ко всему перед этим должны быть созданы таблицы для соответсвующей заливки.
Не ну это жесть конечно...
...
Рейтинг: 0 / 0
Hadoop
    #39233586
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полумертвая ветка:)
разговоры отщипенцев самих с собой,
итак положил кластер свой из-за невозможности подключения jdbc к mssql требовал 8 java установил, нерезапустил кластер и досвидос....страдания продолжаются
...
Рейтинг: 0 / 0
Hadoop
    #39233865
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Танцы с бубном и многое другое таки поднял обратно кластер, что приятно данные все остались, но пришлось hive создать новую директорию.
поехали дальше импортировать теперь из mssql , есть идея заполнить данные скриптом с помощью списка всех таблиц из базы, пока не пойму, как так же создать столько голых таблиц с нужными столбцами и типами данных...в голову приходить выгрузить всю спецификацию в xml и распарсить питоном в pig, короче пока нихрена не ясно одни догатки, надо пробовать.
...
Рейтинг: 0 / 0
Hadoop
    #39233894
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
к mssql подключился, полет нормальный, разбираюсь дальше...
...
Рейтинг: 0 / 0
Hadoop
    #39235414
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
первые тесты:
таблица 12 гб
67 лямов записей
обычный запрос:
Код: sql
1.
2.
3.
SELECT *
  FROM tbl_databaselog  
  where CreatedOn LIKE '%2013%'


MSSQL(сервер не загруженный, тестовый 16 гиг оперы 2 проца) - 3.40 минуты
Hadoop(5нодов):
Hive: 2.28 мин
Impala: 1-2 секунды

Итог поиска: 3,5 ляма записей

Hive конечно тормоз еще тот со своим мапредьюсом(конечно может если вручную писать все мапы и редьюсы все будет быстро, но из коробки все медлено), impala прям порадовала крутяцки.

Все понятно что это шелуха для хадупа, но все же для последующих искателей себя в бигдата:)

И еще нет ли какой утилиты для более удобного отслеживания выполненных запросов(время ресурсы), а то бегать между hive и impala не оч удобно?
...
Рейтинг: 0 / 0
Hadoop
    #39235421
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ну конечно же это время до вывода первичной информации
...
Рейтинг: 0 / 0
Hadoop
    #39235605
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624
И еще нет ли какой утилиты для более удобного отслеживания выполненных запросов(время ресурсы), а то бегать между hive и impala не оч удобно?
Cloudera manager)
...
Рейтинг: 0 / 0
Hadoop
    #39235610
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

это понятно:)
но там не удобно грю между ними прыгать, нет ли общего лога по запросам?
во, коли хоть кто-то заглянул на огонек, может подскажешь, как целиком базу залить со всеми таблицами в отдельно созданную в хадупе, а не в дефолтную?без всяких извращений.
...
Рейтинг: 0 / 0
Hadoop
    #39235796
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624haXbat,
во, коли хоть кто-то заглянул на огонек, может подскажешь, как целиком базу залить со всеми таблицами в отдельно созданную в хадупе, а не в дефолтную?без всяких извращений.
Без извращений не знаю: гружу через shell+ssh)
...
Рейтинг: 0 / 0
Hadoop
    #39236135
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

если не трудно приведи пример своей загрузки.
...
Рейтинг: 0 / 0
Hadoop
    #39236151
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
[quot mishanya3624]первые тесты:
таблица 12 гб
67 лямов записей
обычный запрос:
Код: sql
1.
2.
3.
SELECT *
  FROM tbl_databaselog  
  where CreatedOn LIKE '%2013%'



А можно сделать на mssql openqerry ? и 2 подключения к хейву и импале?
...
Рейтинг: 0 / 0
Hadoop
    #39236175
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

к импале нет опенсорсного драйвера, только для hive
я пытаюсь подцепить hadoop к cognos, там возможен только пока hive драйвер, jdbc odbc пока не получается отдельно настроить.
вывести данные через openqwery 1 раз попробовал не получилось, надо правильную строку подключения для линкед сервера написать, пока нужды нет такой, думаю возможно.
...
Рейтинг: 0 / 0
Hadoop
    #39236330
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Получилось подцепить hadoop к Cognos BI , данные прилетают, но есть косяк небольшой с blob столбцами, для них нужен индекс, а в хадупе они у меня уже как стринг импортированны, можно ли добавить столбец индекса в хадупе?
...
Рейтинг: 0 / 0
Hadoop
    #39236366
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624haXbat,

если не трудно приведи пример своей загрузки.


Код: powershell
1.
2.
#put data from mysql to hdfs
ssh ${hostname} "mysql -s --batch --quick -e 'select * from ${src_db_name}.${src_table_name}' | pigz -f" | hadoop fs -put - ${hdfs_dir}



На переменную ${hdfs_dir} уже нацелена hive таблица (stored as textfile), которая повторяет структуру исходной таблицы из mysql. Следующим шагом идет конвертация из textfile в parquet, раскладывание данных по партициям, парсинг json-колонок и другие преобразования сырых данных.
...
Рейтинг: 0 / 0
Hadoop
    #39236690
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

спасибо,надо будет попробовать...
Такой вопрос для возможности update delete необходимо создать соответствующую таблицу с определенными свойствами.
create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true');
то есть делаем кластерный индекс с возможностью транзакций таблицы, а вот что на buckets и что зависит от цифры перед ним?
...
Рейтинг: 0 / 0
Hadoop
    #39236741
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624haXbat,

спасибо,надо будет попробовать...
Такой вопрос для возможности update delete необходимо создать соответствующую таблицу с определенными свойствами.
create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true');
то есть делаем кластерный индекс с возможностью транзакций таблицы, а вот что на buckets и что зависит от цифры перед ним?
ACID для hive он же сырой вообще, я вообще не вижу в нем особо смысла пока. Так что те DDL, которые не поддерживает Impala, не использую.
...
Рейтинг: 0 / 0
Hadoop
    #39236746
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

то есть используете только insert?
для работы с impala используете Hue, командной строкой пользуетесь?
...
Рейтинг: 0 / 0
Hadoop
    #39236769
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624первые тесты:
таблица 12 гб
67 лямов записей
обычный запрос:
Код: sql
1.
2.
3.
SELECT *
  FROM tbl_databaselog  
  where CreatedOn LIKE '%2013%'



MSSQL(сервер не загруженный, тестовый 16 гиг оперы 2 проца) - 3.40 минуты
Hadoop(5нодов):
Hive: 2.28 мин
Impala: 1-2 секунды

Итог поиска: 3,5 ляма записейИнтересно проверить на СУБД Caché с задействованием индексов iFind/iKnow.
В своё время делал тесты для подобного поиска: 15886647 .
...
Рейтинг: 0 / 0
Hadoop
    #39236779
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624haXbat,

то есть используете только insert?
для работы с impala используете Hue, командной строкой пользуетесь?
Insert overwrite + партицирование.
Hue - пользователи/аналитика для кастомных запросов, вся разработка в консоле. В hue баг на баге и багом погоняет.
...
Рейтинг: 0 / 0
Hadoop
    #39236842
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

у меня все получилось, настроил Linked server, могу вытаскивать данные в SSMS.
...
Рейтинг: 0 / 0
Hadoop
    #39236843
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

в импала с командной строки , как заходите?
...
Рейтинг: 0 / 0
Hadoop
    #39236860
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624мигель1,

у меня все получилось, настроил Linked server, могу вытаскивать данные в SSMS.

Это офигенно!
А Вас не затруднит описать , что же Вы делали почти месяц )
Чтобы в итоге все получилось
...
Рейтинг: 0 / 0
Hadoop
    #39236960
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624haXbat,

в импала с командной строки , как заходите?

impala-shell
...
Рейтинг: 0 / 0
Hadoop
    #39237013
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

спасибо!
у вас нет случайно impala drivera&^)
...
Рейтинг: 0 / 0
Hadoop
    #39237016
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

завтра отвечу)
...
Рейтинг: 0 / 0
Hadoop
    #39237653
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

1. Ставим на сервер MSSQL драйвер Hive
2. Создаем ODBC драйвер для Hadoopmaster сервер
3. Создаем LInkedServer
http://sqlmag.com/business-intelligence/integrating-hadoop-sql-server

Очень важно, чтобы таблица в Hadoop была TBLPROPERTIES('transactional'='true')
Все другие будут вылетать в ошибку.

Это одна сторона, но если она TBLPROPERTIES('transactional'='true'), то с ней не сможет работать impala:)
То есть выбор за вами, что важнее.
...
Рейтинг: 0 / 0
Hadoop
    #39237675
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624мигель1,

1. Ставим на сервер MSSQL драйвер Hive
2. Создаем ODBC драйвер для Hadoopmaster сервер
3. Создаем LInkedServer
http://sqlmag.com/business-intelligence/integrating-hadoop-sql-server

Очень важно, чтобы таблица в Hadoop была TBLPROPERTIES('transactional'='true')
Все другие будут вылетать в ошибку.

Это одна сторона, но если она TBLPROPERTIES('transactional'='true'), то с ней не сможет работать impala:)
То есть выбор за вами, что важнее.

Я думаю надо еще покапать, странно как то, чтобы или то работало или это...
...
Рейтинг: 0 / 0
Hadoop
    #39237679
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

impala наотрез не хочет работать с ACID...
Если что накопаешь, пиши.
...
Рейтинг: 0 / 0
Hadoop
    #39240294
YuriN.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Подскажите, пожалуйста, в каком формате лучше держать структурированные данные телеметрии. За день набегает по 5-6 млн. записей (где-то по 7GB сырых данных в месяц). AVRO не понравился, не поддерживает TIMESTAMP (в требованиях время до милисекунды). Данные нужны для аналитики (накопил и агрегируй), но возможно в дальнейшем потребуется стримить из источника. Пока играю с Parquet, но он вроде колоночный.
...
Рейтинг: 0 / 0
Hadoop
    #39241381
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
YuriN.Подскажите, пожалуйста, в каком формате лучше держать структурированные данные телеметрии. За день набегает по 5-6 млн. записей (где-то по 7GB сырых данных в месяц). AVRO не понравился, не поддерживает TIMESTAMP (в требованиях время до милисекунды). Данные нужны для аналитики (накопил и агрегируй), но возможно в дальнейшем потребуется стримить из источника. Пока играю с Parquet, но он вроде колоночный.
Можно заюзать HPE Vertica Comminity Edition бесплатный. Поддерживает отказоустойчивый с зеркалированием кластер из 3 серверов + возможность загружать и анализировать средствами SQL до 1 тб сырых данных. С Вашими объемами хватит на много лет. Даже если не делать кластер и крутить БД на одном только сервере, все будет летать и по загрузке данных в реалтайм и по анализу всего массива данных. Вполне хороший вариант для телекомов, реалтайм сборов данных и т.д. Инсталляций в РФ уже полно на базе коммунити в проде компаний различных.
...
Рейтинг: 0 / 0
Hadoop
    #39242622
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
270 лямов записей 50 гб таблица
Код: sql
1.
select * from mytable where id = 'dsfgdfgd-54hf-fbn'


hiveimpala14 минут270 сек
все с командной строки
...
Рейтинг: 0 / 0
Hadoop
    #39242626
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
забыл, вывод 4 строки.
...
Рейтинг: 0 / 0
Hadoop
    #39243694
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кто-нибудь работает с hadoop с помощью Python скриптов?
Если да, поделитесь парочкой скриптов для наглядности и простое описание к ним.
...
Рейтинг: 0 / 0
Hadoop
    #39243768
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вот еще вопрос:
всего в hive у меня данных на 67 гб
а hdfs кластера загружен на все 265 , это так называемое зеркалирование он делает, для отказоустойчивости?
...
Рейтинг: 0 / 0
Hadoop
    #39243769
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Hadoop
    #39243880
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624вот еще вопрос:
всего в hive у меня данных на 67 гб
а hdfs кластера загружен на все 265 , это так называемое зеркалирование он делает, для отказоустойчивости?

Нет, не то. Это информация без учёта зеркалирования (т.е. реально на диске в 3 раза больше занято).

А чтобы понять, где место теряется - надо выполнить сначала
sudo -u hdfs hadoop fs -ls -h / (sudo чтобы видеть все папки)
а потом для каждой смотреть, что там
sudo -u hdfs hadoop fs -count -h /user/*
и т.п.
Из-за какой-то баги попытка посмотреть с корня приводит к ошибке, т.е. так нельзя:
sudo -u hdfs hadoop fs -count -h /*
а дальше "вглубь" можно.
В общем- поисследуй hdfs- полезно будет.
...
Рейтинг: 0 / 0
Hadoop
    #39244002
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tomin,

именно так и смотрел, перепроверил все через FileBrowers в Hew, там папка user занимает 67 гб все остальное по мелочам:
Код: powershell
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
88.
89.
90.
91.
92.
93.
94.
95.
96.
root@Hadoopmaster:~# sudo -u hdfs hadoop fs -ls -h /
Found 5 items
drwxr-x--x   - accumulo accumulo            0 2016-05-06 11:07 /accumulo
drwxr-xr-x   - hbase    hbase               0 2016-05-04 09:41 /hbase
drwxrwxr-x   - solr     solr                0 2016-05-04 07:45 /solr
drwxrwxrwt   - hdfs     supergroup          0 2016-05-26 03:51 /tmp
drwxr-xr-x   - hdfs     supergroup          0 2016-05-10 08:33 /user
root@Hadoopmaster:~# sudo -u hdfs hadoop fs -count -h /accumulo/*
           1            1                  0 /accumulo/instance_id
           1            0                  0 /accumulo/recovery
           8           12              1.8 M /accumulo/tables
           2            0                  0 /accumulo/version
           3            1             83.9 K /accumulo/wal
root@Hadoopmaster:~# sudo -u hdfs hadoop fs -count -h /hbase/*
           3            0                  0 /hbase/.tmp
           1            1                 31 /hbase/MasterProcWALs
          14            0                  0 /hbase/WALs
           1            0                  0 /hbase/archive
          38           21              3.5 M /hbase/data
           0            1                 42 /hbase/hbase.id
           0            1                  7 /hbase/hbase.version
           1            6              1.8 K /hbase/oldWALs
root@Hadoopmaster:~# sudo -u hdfs hadoop fs -count -h /solr/*
count: `/solr/*': No such file or directory
root@Hadoopmaster:~# sudo -u hdfs hadoop fs -count -h /user/*
           2            0                  0 /user/accumulo
           8            4            404.5 K /user/admin
           8           19             33.6 M /user/hdfs
          15            2              1.5 M /user/history
          17           25             50.0 G /user/hive
       4.9 K           81              2.8 M /user/hue
           1            0                  0 /user/impala
           1            0                  0 /user/mixa
          13          695            545.9 M /user/oozie
          21           49             17.2 G /user/root
           2            0                  0 /user/spark
           1            0                  0 /user/sqoop2
root@Hadoopmaster:~# sudo -u hdfs hadoop fs -count -h /tmp/*
count: `/tmp/1179427f-f081-4f0f-a1b6-497f8387eab6_resources': No such file or directory
count: `/tmp/13bb4bcd-1b06-44f5-a171-b59ee19cb2c2_resources': No such file or directory
count: `/tmp/1d0535ba-d2d8-4f68-9554-0d5d44b30209_resources': No such file or directory
count: `/tmp/2df2c266-707a-465d-babb-cc685c2e4a3d_resources': No such file or directory
count: `/tmp/3698a4db-b1be-4965-a0ed-952ac99510a2_resources': No such file or directory
count: `/tmp/3f27184b-6564-4cd9-b6f8-562b248a4a02_resources': No such file or directory
count: `/tmp/466e9b57-3bef-4e17-8117-a5da8661eb46_resources': No such file or directory
count: `/tmp/66c6e6a6-6f44-4d08-b7bd-b1fc2afc9e8f_resources': No such file or directory
count: `/tmp/711c39f1-b2b1-4900-bb47-905dd0e1c645_resources': No such file or directory
count: `/tmp/8ad8eaa4-90bb-483d-843f-cc7b0c6acbfd_resources': No such file or directory
count: `/tmp/8bb5f824-755f-46e4-8d7c-b669898796bf_resources': No such file or directory
count: `/tmp/9392546e-4290-4ed3-b528-f53cfa68983d_resources': No such file or directory
count: `/tmp/c279e75b-9c4e-4035-bcdf-f0aba78b4e4b_resources': No such file or directory
count: `/tmp/cmflistener-stderr---agent-1275-1462967809-Z2aJnj.log': No such file or directory
count: `/tmp/cmflistener-stdout---agent-1275-1462967809-VZoW_y.log': No such file or directory
count: `/tmp/d1782e67-afd5-4ecb-9923-c58b3b5c3bf5_resources': No such file or directory
count: `/tmp/e2638687-9bd9-4b39-ac5d-0c1f2f209b5b_resources': No such file or directory
count: `/tmp/fa8755d5-9742-43f3-9ead-c9764924de80_resources': No such file or directory
count: `/tmp/hadoop-unjar2548751013024815025': No such file or directory
count: `/tmp/hadoop-unjar4035758993205197952': No such file or directory
count: `/tmp/hadoop-unjar4860844647514543287': No such file or directory
count: `/tmp/hadoop-unjar5646472283087487424': No such file or directory
count: `/tmp/hadoop-unjar9218753532974839030': No such file or directory
          11            0                  0 /tmp/hive
count: `/tmp/hsperfdata_cloudera-scm': No such file or directory
count: `/tmp/hsperfdata_hbase': No such file or directory
count: `/tmp/hsperfdata_hdfs': No such file or directory
count: `/tmp/hsperfdata_hive': No such file or directory
count: `/tmp/hsperfdata_hue': No such file or directory
count: `/tmp/hsperfdata_impala': No such file or directory
count: `/tmp/hsperfdata_mapred': No such file or directory
count: `/tmp/hsperfdata_oozie': No such file or directory
count: `/tmp/hsperfdata_root': No such file or directory
count: `/tmp/hsperfdata_solr': No such file or directory
count: `/tmp/hsperfdata_yarn': No such file or directory
count: `/tmp/hsperfdata_zookeeper': No such file or directory
count: `/tmp/impala-shell-python-egg-cache-root': No such file or directory
count: `/tmp/jetty-0.0.0.0-10002-hiveserver2-_-any-': No such file or directory
count: `/tmp/Jetty_Hadoopmaster_icexpert_local_19888_jobhistory____.2w00qn': No such file or directory
count: `/tmp/Jetty_Hadoopmaster_icexpert_local_50070_hdfs____fegk31': No such file or directory
count: `/tmp/Jetty_Hadoopmaster_icexpert_local_50090_secondary____.4fmfxm': No such file or directory
count: `/tmp/Jetty_Hadoopmaster_icexpert_local_8088_cluster____.1xh1os': No such file or directory
count: `/tmp/libnetty-transport-native-epoll2481115158312960641.so': No such file or directory
count: `/tmp/libnetty-transport-native-epoll3439036392515538115.so': No such file or directory
count: `/tmp/libnetty-transport-native-epoll8061428561922926105.so': No such file or directory
count: `/tmp/ooziedb-8138581557545170399.sql': No such file or directory
count: `/tmp/oozie-oozi1160591377071319753.dir': No such file or directory
count: `/tmp/oozie-oozi2008833506623046609.dir': No such file or directory
count: `/tmp/oozie-oozi3117152423050314547.dir': No such file or directory
count: `/tmp/oozie-oozi3401370725146240233.dir': No such file or directory
count: `/tmp/oozie-oozi7982321428628681144.dir': No such file or directory
count: `/tmp/oozie-oozi9101253829145820345.dir': No such file or directory
count: `/tmp/oozie-oozi972750567338478457.dir': No such file or directory
count: `/tmp/root': No such file or directory
count: `/tmp/sqoop-root': No such file or directory
count: `/tmp/tmpQHh338': No such file or directory
count: `/tmp/tmpXcvDHF': No such file or directory
count: `/tmp/tmpzLl_Cm': No such file or directory

...
Рейтинг: 0 / 0
Hadoop
    #39244005
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Hadoop
    #39244024
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Код: powershell
1.
2.
root@Hadoopmaster:~# sudo -u hdfs hadoop fs -count -h /
       5.1 K          925             67.8 G /
...
Рейтинг: 0 / 0
Hadoop
    #39244037
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не понимаю откуда такие цифры....
...
Рейтинг: 0 / 0
Hadoop
    #39244098
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624
Код: powershell
1.
2.
3.
4.
5.
6.
root@Hadoopmaster:~# sudo -u hdfs hadoop fs -count -h /user/*
          17           25             50.0 G /user/hive
...
          21           49             17.2 G /user/root
...
           2            0                  0 /user/spark




Теперь смотри sudo -u hdfs hadoop fs -count -h /user/hive/* ну и root/* - так и доберёшься :)
...
Рейтинг: 0 / 0
Hadoop
    #39244101
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624,

Да, в хадупе лёгких ответов обычно нет.
...
Рейтинг: 0 / 0
Hadoop
    #39244108
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tomin,

так нет смысла дальше смотреть...
видно же , что общий объем 67 гб, а что занимает эти 67 гб уже не важно...
важно что занимает из 265 - 67, то есть 200 гб непонятно чем забиты, и тем, что не связанно с hdfs
...
Рейтинг: 0 / 0
Hadoop
    #39244142
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Код: powershell
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
root@Hadoop1:~# df -h
Filesystem                   Size  Used Avail Use% Mounted on
udev                         3.9G  4.0K  3.9G   1% /dev
tmpfs                        799M  748K  798M   1% /run
/dev/mapper/Hadoop--vg-root   91G   59G   28G  69% /
none                         4.0K     0  4.0K   0% /sys/fs/cgroup
none                         5.0M     0  5.0M   0% /run/lock
none                         3.9G     0  3.9G   0% /run/shm
none                         100M     0  100M   0% /run/user
/dev/sda1                    236M   39M  185M  18% /boot
cm_processes                 3.9G   18M  3.9G   1% /run/cloudera-scm-agent/proce



а что это за путь : /dev/mapper/Hadoop--vg-root?
...
Рейтинг: 0 / 0
Hadoop
    #39244883
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Для себя, создаю еще 1 кластер с помощью Ambari, хочу из него сделать бекап кластер основного.
Я так понимаю, ту машину на которой стоит сам Ambari в кластер не надо включать, она чисто служит, как manager cluster?
...
Рейтинг: 0 / 0
Hadoop
    #39244919
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624,

можно включать.
...
Рейтинг: 0 / 0
Hadoop
    #39245179
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
очередные танцы с бубном, ошибки, ошибки, ошибки, но таки поднял кластер.
Подскажите, как теперь настроить бекапирование с одного кластера на другой?
...
Рейтинг: 0 / 0
Hadoop
    #39245194
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mishanya3624очередные танцы с бубном, ошибки, ошибки, ошибки, но таки поднял кластер.
Подскажите, как теперь настроить бекапирование с одного кластера на другой?
RTFM distcp
...
Рейтинг: 0 / 0
Hadoop
    #39245198
mishanya3624
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

а если у меня второй кластер голый HDP, а не cloudera, получится бекапить cloudera на него?
...
Рейтинг: 0 / 0
Hadoop
    #39273380
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Почему заглохла тема?

Говорят спарк2 сделали. теперь еще быстрее )

а у меня столкьо работы, что некогда клоудерой занятся ((

На выходных попробую продолжить установку
...
Рейтинг: 0 / 0
Hadoop
    #39275914
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Скачал cloudera-manager-installer.bin
...
Рейтинг: 0 / 0
Hadoop
    #39275918
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

запустил, установил.
иду на порт 7180
и что то от меня клоудерка хочет
...
Рейтинг: 0 / 0
Hadoop
    #39275943
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
имхо полезно маны читать перед тем как
мигель1скачал, запустил, установил.
Introduction to Cloudera Manager Installation
...
Рейтинг: 0 / 0
Hadoop
    #39276633
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушкаимхо полезно маны читать перед тем как
мигель1скачал, запустил, установил.
Introduction to Cloudera Manager Installation

Читал, но там все общо.

Вообщем прописал localhost заработало.
потом поставил single mod, стоит?
...
Рейтинг: 0 / 0
Hadoop
    #39276779
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1потом поставил single mod, стоит?

Для single-mode достаточно в проект hadoop-core включить и дёргать org.apache.hadoop.util.ToolRunner. Вообще ничего ставить не надо.
...
Рейтинг: 0 / 0
Hadoop
    #39277903
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominмигель1потом поставил single mod, стоит?

Для single-mode достаточно в проект hadoop-core включить и дёргать org.apache.hadoop.util.ToolRunner. Вообще ничего ставить не надо.

Простите что и чем дергать?
...
Рейтинг: 0 / 0
Hadoop
    #39278475
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1Alexey Tominпропущено...


Для single-mode достаточно в проект hadoop-core включить и дёргать org.apache.hadoop.util.ToolRunner. Вообще ничего ставить не надо.

Простите что и чем дергать?

Из java запускать ToolRunner и далее точно можно выполнять m/r и pig. Остальное не пробовал.
Без установки хадупа вообще.
...
Рейтинг: 0 / 0
Hadoop
    #39278534
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominмигель1пропущено...


Простите что и чем дергать?

Из java запускать ToolRunner и далее точно можно выполнять m/r и pig. Остальное не пробовал.
Без установки хадупа вообще.

Понятно. не я хочу нормально сделать.
Вообщем удалил виртуальную машину, решил заноново все сделать.
Уже без single mod
...
Рейтинг: 0 / 0
Hadoop
    #39280490
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Installation failed. Failed to receive heartbeat
...
Рейтинг: 0 / 0
Hadoop
    #39280606
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

Решил проблему
https://community.cloudera.com/t5/Cloudera-Manager-Installation/Installation-failed-Failed-to-receive-heartbeat-from-agent/td-p/805

вкратце

ifconfig -a
/etc/hosts

--10.x.x.227 name1.domain name1
hostname name1
hostname -f

netstat -apn | grep 9001
kill -9 6330

service cloudera-scm-agent restart


пошел устанавливать дальше
...
Рейтинг: 0 / 0
Hadoop
    #39281520
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Установил )

Что ему нужно )

Concerning : NameNode summary: name0.domain (Availability: Active, Health: Concerning). This health test reflects the health of the active NameNode.

почему не good?
...
Рейтинг: 0 / 0
Hadoop
    #39281542
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

И теперь вопрос , что делать дальше?
Как в клоудере создать таблицы?
Как наполнить данными из flume, sqoope

вообщем начало пути)
...
Рейтинг: 0 / 0
Hadoop
    #39294284
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

Вообщем
создал я табличку в hue, написал запрос. отработал. (отмечу что есть загвоздка, что создается на sql hive не всегда актуально для sql imapala)


Скачал impala odbc driver для mssql 2012
Далее я пытаюсь подключится через к серверу

прописываю
host виртуальной машины 192.168..
port 21050

получаю ошибку.

Слушаю порты и вижу запись
tcp6 0.0.0.0 21050

Если я правильно понял, порт висит на ipv6 значит нужно отключить ipv6, чтобы была такая строчка:
192.168... 21050

Верно?
...
Рейтинг: 0 / 0
Hadoop
    #39294731
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

нет, пробелма в другом экосистема хадуп не поддерживает ipv6

и вообще фаервол лучше отключать

service iptabels status
service ip6tables status

service iptabels stop
service ip6tables stop

chkconfig iptables off
chkconfig ip6tables off
...
Рейтинг: 0 / 0
Hadoop
    #39295132
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,
Может проблема в авторизации?
...
Рейтинг: 0 / 0
Hadoop
    #39295632
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

Решил проблему скачав cloudera quick
Все заработало )
...
Рейтинг: 0 / 0
Hadoop
    #39305441
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

appendToFile добавляет с заголовком. можно как то исключить первую строку?
...
Рейтинг: 0 / 0
Hadoop
    #39306055
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,
Правильно ли я понимаю что "load data indath" не копирует файл в импалу ,а переносит, т.е. сам файлик не сохраняется?
...
Рейтинг: 0 / 0
Hadoop
    #39306058
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1мигель1,
Правильно ли я понимаю что "load data indath" не копирует файл в импалу ,а переносит, т.е. сам файлик не сохраняется?

Да
The loaded data files are moved, not copied, into the Impala data directory.
...
Рейтинг: 0 / 0
Hadoop
    #39306604
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
node в режиме safemode. Как отключить?
hdfs dfsadmin -safemode leave
...
Рейтинг: 0 / 0
Hadoop
    #39306632
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вообщем я сделал следующее, сделал 2 машины : "cloudera quick " и "cloudera manager"

у "cloudera quick" есть 2 (manager и worker) причем IP одинаковый
у "cloudera manager" есть 1 (host) как я понимаю = manager


Вопрос: как добавить worker т.е как я понимаю Node
...
Рейтинг: 0 / 0
Hadoop
    #39306711
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

За NameNode и dataNode отвечает раздел HDFS в (Cloudera manager)
...
Рейтинг: 0 / 0
138 сообщений из 138, показаны все 6 страниц
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]