powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop
25 сообщений из 138, страница 1 из 6
Hadoop
    #38968394
navio
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги подскажите хадуп можно поставить на существующую ОС ?

Форматирование Hadoop File System не приведет к форматированию текущего диска ?
...
Рейтинг: 0 / 0
Hadoop
    #38968451
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
navioКоллеги подскажите хадуп можно поставить на существующую ОС ?

Форматирование Hadoop File System не приведет к форматированию текущего диска ?Можно, на Linux, только версия должна быть поддерживаемой.
Не приведет.
...
Рейтинг: 0 / 0
Hadoop
    #38969238
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
navioФорматирование Hadoop File System не приведет к форматированию текущего диска ?
HDFS работает поверх существующей файловой системы, по сути у вас просто будет директория в которой будут храниться файлы-блоки hdfs'a.
...
Рейтинг: 0 / 0
Hadoop
    #38970986
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги . Прочитал на хабре
"При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд"

Что подразумевается под словом "узел"?
сервер?
...
Рейтинг: 0 / 0
Hadoop
    #38971004
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1Коллеги . Прочитал на хабре
"При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд"

Что подразумевается под словом "узел"?
сервер?

Это может быть и виртуалкой :)
Так что называют "узел".
...
Рейтинг: 0 / 0
Hadoop
    #38971008
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominмигель1Коллеги . Прочитал на хабре
"При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд"

Что подразумевается под словом "узел"?
сервер?

Это может быть и виртуалкой :)
Так что называют "узел".


А как можно считать по "узлам/виртуалкам" если начинка может быть разной
одно дело 2 ядра 8 гб оперативки
а другое 24 ядра 512 гб оперативки?
...
Рейтинг: 0 / 0
Hadoop
    #38971110
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1одно дело 2 ядра 8 гб оперативки
а другое 24 ядра 512 гб оперативки?
Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.
...
Рейтинг: 0 / 0
Hadoop
    #38971124
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbatмигель1одно дело 2 ядра 8 гб оперативки
а другое 24 ядра 512 гб оперативки?
Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.

Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза?
Так?
...
Рейтинг: 0 / 0
Hadoop
    #38971268
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1haXbatпропущено...

Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.

Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза?
Так?
а что ставить собираетесь ? (Будет ли использовать решения от Cloudera, hortonworks или что- то другое) ?
...
Рейтинг: 0 / 0
Hadoop
    #38971416
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1haXbatпропущено...

Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации.

Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза?
Так?

Но есть ньюанс :)
Не надо забывать, в map/reduce не 2 шага, а 3.
Промежуточный (переупорядочивание данных между узлами перед reduce) занимает некоторое время.
И оно не будет снижаться при увеличении числа узлов.
Поэтому рост будет не линейным, причём чем дальше- тем хуже.

Сравнение же с одним узлом, особенно без использование хадупа, ещё сложнее- т.к. у него накладных расходов своих очень много. Даже просто переход од одного узла к двум не даст *2 по скорости :)
Вообще для хадупа 4 узла- это по сути минимальная конфигурация. Меньше- это не показательно вообще (из-за особенностей хранения данных).

PS: а ещё не забываем, что хадуп запускает много больше потоков, чем узлов, и это тоже может принести как выигрыш по скорости, так и проблемы.
...
Рейтинг: 0 / 0
Hadoop
    #38977835
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Развернул Hortonworks Sandbox with HDP 2.2

щас ищу TSV файл миллиардом записей для теста ))
...
Рейтинг: 0 / 0
Hadoop
    #39120205
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkРазвернул Hortonworks Sandbox with HDP 2.2

щас ищу TSV файл миллиардом записей для теста ))

Вопрос. вот есть у меня данные в хадуп.
А что с ними делать дальше?

В mysql понятно: есть процедуры туда передаются параметры. select выводим пользователям в php

А есть бест практис как это организовать для хадупа?
...
Рейтинг: 0 / 0
Hadoop
    #39120213
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Есть предположение , что надо использовать Sqoop
Sqoop is a tool designed to import data from relational databases into Hadoop
...
Рейтинг: 0 / 0
Hadoop
    #39120270
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job
...
Рейтинг: 0 / 0
Hadoop
    #39120578
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkкириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.
...
Рейтинг: 0 / 0
Hadoop
    #39120624
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominкириллkкириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.

Не совсем понял.

hive-скрипт это sql запрос
а mr-job это ETL который hive-скрипт выполняется

При чем тут проигрыш?
...
Рейтинг: 0 / 0
Hadoop
    #39122801
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkAlexey Tominпропущено...


Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.

Не совсем понял.

hive-скрипт это sql запрос
а mr-job это ETL который hive-скрипт выполняется

При чем тут проигрыш?
Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально.
...
Рейтинг: 0 / 0
Hadoop
    #39122802
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominкириллkкириллk,
прочитал документацию, я думаю можно решить проблему через sqoop-job

Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.
А по времени?
...
Рейтинг: 0 / 0
Hadoop
    #39122830
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexAlexey Tominпропущено...


Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным.
Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам.
А по времени?

По времени в 4 раза, потому что изначальной задачей было не занимать полностью кластер :)
...
Рейтинг: 0 / 0
Hadoop
    #39122952
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apexкириллkпропущено...


Не совсем понял.

hive-скрипт это sql запрос
а mr-job это ETL который hive-скрипт выполняется

При чем тут проигрыш?
Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально.

А где можно прочитать про эти MR-Job?
...
Рейтинг: 0 / 0
Hadoop
    #39123201
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkApexпропущено...

Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально.

А где можно прочитать про эти MR-Job?

В гугле забанили? Вот , например.
...
Рейтинг: 0 / 0
Hadoop
    #39123214
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tominкириллkпропущено...


А где можно прочитать про эти MR-Job?

В гугле забанили? Вот , например.

Ах! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать.
И потом я думал что нужно юзать spark sql, который быстрее map reduce
...
Рейтинг: 0 / 0
Hadoop
    #39123717
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkАх! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать.


И? Какое это имеет отношение к тому, что в конечном счете, что Hive, что Pig скрипты выполняются в виде серии MR-Job'ов?

кириллkИ потом я думал что нужно юзать spark sql, который быстрее map reduce

Это тут при чем?
...
Рейтинг: 0 / 0
Hadoop
    #39123909
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexкириллkАх! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать.


И? Какое это имеет отношение к тому, что в конечном счете, что Hive, что Pig скрипты выполняются в виде серии MR-Job'ов?

К тому что человек написал " hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам."
Смысл в этих hive-скриптах?

кириллkИ потом я думал что нужно юзать spark sql, который быстрее map reduce

Это тут при чем?

Как я понял смысл спарка уйти от методологии map reduce (могу ошибаться)
...
Рейтинг: 0 / 0
Hadoop
    #39124080
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkКак я понял смысл спарка уйти от методологии map reduce (могу ошибаться)

Уйти от движка mr, который хоть и неплохо едет, но запрягает уж ОЧЕНЬ долго.
Плюс Спарк умеет в памяти хранить данные...
...
Рейтинг: 0 / 0
25 сообщений из 138, страница 1 из 6
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]