Hadoop / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop

25 сообщений из 138, страница 1 из 6

все

Hadoop

#38968394

navio

Участник

Сообщения: 26

Рейтинг: 0 / 0

Коллеги подскажите хадуп можно поставить на существующую ОС ?

Форматирование Hadoop File System не приведет к форматированию текущего диска ?

...

Рейтинг:

0 / 0

26.05.2015, 10:32

| Ответить | Цитировать | Написать

Hadoop

#38968451

Alexander Ryndin

Участник

Сообщения: 4 863

Рейтинг: 0 / 0

navioКоллеги подскажите хадуп можно поставить на существующую ОС ?

Форматирование Hadoop File System не приведет к форматированию текущего диска ?Можно, на Linux, только версия должна быть поддерживаемой.
Не приведет.

...

Рейтинг:

0 / 0

26.05.2015, 11:25

| Ответить | Цитировать | Написать

Hadoop

#38969238

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

navioФорматирование Hadoop File System не приведет к форматированию текущего диска ?
HDFS работает поверх существующей файловой системы, по сути у вас просто будет директория в которой будут храниться файлы-блоки hdfs'a.

...

Рейтинг:

0 / 0

26.05.2015, 21:38

| Ответить | Цитировать | Написать

Hadoop

#38970986

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

Коллеги . Прочитал на хабре
"При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд"

Что подразумевается под словом "узел"?
сервер?

...

Рейтинг:

0 / 0

28.05.2015, 16:08

| Ответить | Цитировать | Написать

Hadoop

#38971004

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

мигель1Коллеги . Прочитал на хабре
"При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд"

Что подразумевается под словом "узел"?
сервер?

Это может быть и виртуалкой :)
Так что называют "узел".

...

Рейтинг:

0 / 0

28.05.2015, 16:19

| Ответить | Цитировать | Написать

Hadoop

#38971008

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

Alexey Tominмигель1Коллеги . Прочитал на хабре
"При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд"

Что подразумевается под словом "узел"?
сервер?

Это может быть и виртуалкой :)
Так что называют "узел".

А как можно считать по "узлам/виртуалкам" если начинка может быть разной
одно дело 2 ядра 8 гб оперативки
а другое 24 ядра 512 гб оперативки?

...

Рейтинг:

0 / 0

28.05.2015, 16:21

| Ответить | Цитировать | Написать

Hadoop

#38971110

haXbat

Участник

Сообщения: 398

Рейтинг: 0 / 0

мигель1одно дело 2 ядра 8 гб оперативки
а другое 24 ядра 512 гб оперативки?
Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.

...

Рейтинг:

0 / 0

28.05.2015, 17:58

| Ответить | Цитировать | Написать

Hadoop

#38971124

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

haXbatмигель1одно дело 2 ядра 8 гб оперативки
а другое 24 ядра 512 гб оперативки?
Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.

Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза?
Так?

...

Рейтинг:

0 / 0

28.05.2015, 18:10

| Ответить | Цитировать | Написать

Hadoop

#38971268

Станислав Клевцов

Участник

Откуда: Krasnodar-Russia

Сообщения: 529

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

28.05.2015, 21:57

| Ответить | Цитировать | Написать

Hadoop

#38971416

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

мигель1haXbatпропущено...

Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.

Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза?
Так?

Но есть ньюанс :)
Не надо забывать, в map/reduce не 2 шага, а 3.
Промежуточный (переупорядочивание данных между узлами перед reduce) занимает некоторое время.
И оно не будет снижаться при увеличении числа узлов.
Поэтому рост будет не линейным, причём чем дальше- тем хуже.

Сравнение же с одним узлом, особенно без использование хадупа, ещё сложнее- т.к. у него накладных расходов своих очень много. Даже просто переход од одного узла к двум не даст *2 по скорости :)
Вообще для хадупа 4 узла- это по сути минимальная конфигурация. Меньше- это не показательно вообще (из-за особенностей хранения данных).

PS: а ещё не забываем, что хадуп запускает много больше потоков, чем узлов, и это тоже может принести как выигрыш по скорости, так и проблемы.

...

Рейтинг:

0 / 0

29.05.2015, 08:08

| Ответить | Цитировать | Написать

Hadoop

#38977835

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

Развернул Hortonworks Sandbox with HDP 2.2

щас ищу TSV файл миллиардом записей для теста ))

...

Рейтинг:

0 / 0

05.06.2015, 21:44

| Ответить | Цитировать | Написать

Hadoop

#39120205

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

кириллkРазвернул Hortonworks Sandbox with HDP 2.2

щас ищу TSV файл миллиардом записей для теста ))

Вопрос. вот есть у меня данные в хадуп.
А что с ними делать дальше?

В mysql понятно: есть процедуры туда передаются параметры. select выводим пользователям в php

А есть бест практис как это организовать для хадупа?

...

Рейтинг:

0 / 0

04.12.2015, 10:42

| Ответить | Цитировать | Написать

Hadoop

#39120213

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

Есть предположение , что надо использовать Sqoop
Sqoop is a tool designed to import data from relational databases into Hadoop

...

Рейтинг:

0 / 0

04.12.2015, 10:49

| Ответить | Цитировать | Написать

Hadoop

#39120270

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

кириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job

...

Рейтинг:

0 / 0

04.12.2015, 11:35

| Ответить | Цитировать | Написать

Hadoop

#39120578

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

кириллkкириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.

...

Рейтинг:

0 / 0

04.12.2015, 14:14

| Ответить | Цитировать | Написать

Hadoop

#39120624

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

Alexey Tominкириллkкириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.

Не совсем понял.

hive-скрипт это sql запрос
а mr-job это ETL который hive-скрипт выполняется

При чем тут проигрыш?

...

Рейтинг:

0 / 0

04.12.2015, 14:39

| Ответить | Цитировать | Написать

Hadoop

#39122801

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

кириллkAlexey Tominпропущено...

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.

Не совсем понял.

hive-скрипт это sql запрос
а mr-job это ETL который hive-скрипт выполняется

При чем тут проигрыш?
Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально.

...

Рейтинг:

0 / 0

08.12.2015, 04:51

| Ответить | Цитировать | Написать

Hadoop

#39122802

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Alexey Tominкириллkкириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.
А по времени?

...

Рейтинг:

0 / 0

08.12.2015, 04:52

| Ответить | Цитировать | Написать

Hadoop

#39122830

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

ApexAlexey Tominпропущено...

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.
А по времени?

По времени в 4 раза, потому что изначальной задачей было не занимать полностью кластер :)

...

Рейтинг:

0 / 0

08.12.2015, 08:34

| Ответить | Цитировать | Написать

Hadoop

#39122952

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

Apexкириллkпропущено...

Не совсем понял.

hive-скрипт это sql запрос
а mr-job это ETL который hive-скрипт выполняется

При чем тут проигрыш?
Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально.

А где можно прочитать про эти MR-Job?

...

Рейтинг:

0 / 0

08.12.2015, 11:08

| Ответить | Цитировать | Написать

Hadoop

#39123201

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

кириллkApexпропущено...

Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально.

А где можно прочитать про эти MR-Job?

В гугле забанили? Вот , например.

...

Рейтинг:

0 / 0

08.12.2015, 13:55

| Ответить | Цитировать | Написать

Hadoop

#39123214

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

Alexey Tominкириллkпропущено...

А где можно прочитать про эти MR-Job?

В гугле забанили? Вот , например.

Ах! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать.
И потом я думал что нужно юзать spark sql, который быстрее map reduce

...

Рейтинг:

0 / 0

08.12.2015, 14:00

| Ответить | Цитировать | Написать

Hadoop

#39123717

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

кириллkАх! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать.

И? Какое это имеет отношение к тому, что в конечном счете, что Hive, что Pig скрипты выполняются в виде серии MR-Job'ов?

кириллkИ потом я думал что нужно юзать spark sql, который быстрее map reduce

Это тут при чем?

...

Рейтинг:

0 / 0

09.12.2015, 03:57

| Ответить | Цитировать | Написать

Hadoop

#39123909

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

ApexкириллkАх! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать.

И? Какое это имеет отношение к тому, что в конечном счете, что Hive, что Pig скрипты выполняются в виде серии MR-Job'ов?

К тому что человек написал " hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам."
Смысл в этих hive-скриптах?

кириллkИ потом я думал что нужно юзать spark sql, который быстрее map reduce

Это тут при чем?

Как я понял смысл спарка уйти от методологии map reduce (могу ошибаться)

...

Рейтинг:

0 / 0

09.12.2015, 11:13

| Ответить | Цитировать | Написать

Hadoop

#39124080

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

кириллkКак я понял смысл спарка уйти от методологии map reduce (могу ошибаться)

Уйти от движка mr, который хоть и неплохо едет, но запрягает уж ОЧЕНЬ долго.
Плюс Спарк умеет в памяти хранить данные...

...

Рейтинг:

0 / 0

09.12.2015, 13:33

| Ответить | Цитировать | Написать

25 сообщений из 138, страница 1 из 6

все

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&msg=39120624&tid=1856735]:	0ms
get settings:	8ms
get forum list:	11ms
check forum access:	3ms
check topic access:	3ms
track hit:	98ms
get topic data:	11ms
get forum data:	2ms
get page messages:	53ms
get tp. blocked users:	2ms
others:	14ms

total:	205ms