|
Hadoop
|
|||
---|---|---|---|
#18+
Коллеги подскажите хадуп можно поставить на существующую ОС ? Форматирование Hadoop File System не приведет к форматированию текущего диска ? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 10:32 |
|
Hadoop
|
|||
---|---|---|---|
#18+
navioКоллеги подскажите хадуп можно поставить на существующую ОС ? Форматирование Hadoop File System не приведет к форматированию текущего диска ?Можно, на Linux, только версия должна быть поддерживаемой. Не приведет. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 11:25 |
|
Hadoop
|
|||
---|---|---|---|
#18+
navioФорматирование Hadoop File System не приведет к форматированию текущего диска ? HDFS работает поверх существующей файловой системы, по сути у вас просто будет директория в которой будут храниться файлы-блоки hdfs'a. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 21:38 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Коллеги . Прочитал на хабре "При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд" Что подразумевается под словом "узел"? сервер? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 16:08 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1Коллеги . Прочитал на хабре "При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд" Что подразумевается под словом "узел"? сервер? Это может быть и виртуалкой :) Так что называют "узел". ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 16:19 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominмигель1Коллеги . Прочитал на хабре "При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд" Что подразумевается под словом "узел"? сервер? Это может быть и виртуалкой :) Так что называют "узел". А как можно считать по "узлам/виртуалкам" если начинка может быть разной одно дело 2 ядра 8 гб оперативки а другое 24 ядра 512 гб оперативки? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 16:21 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1одно дело 2 ядра 8 гб оперативки а другое 24 ядра 512 гб оперативки? Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 17:58 |
|
Hadoop
|
|||
---|---|---|---|
#18+
haXbatмигель1одно дело 2 ядра 8 гб оперативки а другое 24 ядра 512 гб оперативки? Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации. Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза? Так? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 18:10 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1haXbatпропущено... Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации. Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза? Так? а что ставить собираетесь ? (Будет ли использовать решения от Cloudera, hortonworks или что- то другое) ? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2015, 21:57 |
|
Hadoop
|
|||
---|---|---|---|
#18+
мигель1haXbatпропущено... Это про линейное горизонтальное масштабирование. Ввел в два раз больше нод, получил в два раза выигрыш в скорости. Ноды, разумеется, одинаковой конфигурации. Понятно т.е теоритически для оценки я могу взять 1 стандартный сервер (Single-Node Cluster) просчитать на нем данные за час и сказать, что если купите 4 таких сервера (Multi-Node Cluster) то получите прирост в 4 раза? Так? Но есть ньюанс :) Не надо забывать, в map/reduce не 2 шага, а 3. Промежуточный (переупорядочивание данных между узлами перед reduce) занимает некоторое время. И оно не будет снижаться при увеличении числа узлов. Поэтому рост будет не линейным, причём чем дальше- тем хуже. Сравнение же с одним узлом, особенно без использование хадупа, ещё сложнее- т.к. у него накладных расходов своих очень много. Даже просто переход од одного узла к двум не даст *2 по скорости :) Вообще для хадупа 4 узла- это по сути минимальная конфигурация. Меньше- это не показательно вообще (из-за особенностей хранения данных). PS: а ещё не забываем, что хадуп запускает много больше потоков, чем узлов, и это тоже может принести как выигрыш по скорости, так и проблемы. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.05.2015, 08:08 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Развернул Hortonworks Sandbox with HDP 2.2 щас ищу TSV файл миллиардом записей для теста )) ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2015, 21:44 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkРазвернул Hortonworks Sandbox with HDP 2.2 щас ищу TSV файл миллиардом записей для теста )) Вопрос. вот есть у меня данные в хадуп. А что с ними делать дальше? В mysql понятно: есть процедуры туда передаются параметры. select выводим пользователям в php А есть бест практис как это организовать для хадупа? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 10:42 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Есть предположение , что надо использовать Sqoop Sqoop is a tool designed to import data from relational databases into Hadoop ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 10:49 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллk, прочитал документацию, я думаю можно решить проблему через sqoop-job ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 11:35 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkкириллk, прочитал документацию, я думаю можно решить проблему через sqoop-job Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным. Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 14:14 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominкириллkкириллk, прочитал документацию, я думаю можно решить проблему через sqoop-job Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным. Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам. Не совсем понял. hive-скрипт это sql запрос а mr-job это ETL который hive-скрипт выполняется При чем тут проигрыш? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 14:39 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkAlexey Tominпропущено... Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным. Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам. Не совсем понял. hive-скрипт это sql запрос а mr-job это ETL который hive-скрипт выполняется При чем тут проигрыш? Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 04:51 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominкириллkкириллk, прочитал документацию, я думаю можно решить проблему через sqoop-job Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным. Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам. А по времени? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 04:52 |
|
Hadoop
|
|||
---|---|---|---|
#18+
ApexAlexey Tominпропущено... Только надо понимать, что внтри всё одно mr-job запускается в большинстве случаев. И он может быть очень не оптимильным. Не так давно переделывал hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам. А по времени? По времени в 4 раза, потому что изначальной задачей было не занимать полностью кластер :) ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 08:34 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Apexкириллkпропущено... Не совсем понял. hive-скрипт это sql запрос а mr-job это ETL который hive-скрипт выполняется При чем тут проигрыш? Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально. А где можно прочитать про эти MR-Job? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 11:08 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkApexпропущено... Hive - это просто программа на java, которая парсит SQL-запрос и транслирует его в серию MR-Job'ов. Делает она это не всегда оптимально. А где можно прочитать про эти MR-Job? В гугле забанили? Вот , например. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 13:55 |
|
Hadoop
|
|||
---|---|---|---|
#18+
Alexey Tominкириллkпропущено... А где можно прочитать про эти MR-Job? В гугле забанили? Вот , например. Ах! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать. И потом я думал что нужно юзать spark sql, который быстрее map reduce ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 14:00 |
|
Hadoop
|
|||
---|---|---|---|
#18+
кириллkАх! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать. И? Какое это имеет отношение к тому, что в конечном счете, что Hive, что Pig скрипты выполняются в виде серии MR-Job'ов? кириллkИ потом я думал что нужно юзать spark sql, который быстрее map reduce Это тут при чем? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.12.2015, 03:57 |
|
Hadoop
|
|||
---|---|---|---|
#18+
ApexкириллkАх! я думал что всякие hive и pig придумали, чтобы руками map reduce не писать. И? Какое это имеет отношение к тому, что в конечном счете, что Hive, что Pig скрипты выполняются в виде серии MR-Job'ов? К тому что человек написал " hive-скрипт на mr-job - где-то в 8 раз выграл по ресурсам." Смысл в этих hive-скриптах? кириллkИ потом я думал что нужно юзать spark sql, который быстрее map reduce Это тут при чем? Как я понял смысл спарка уйти от методологии map reduce (могу ошибаться) ... |
|||
:
Нравится:
Не нравится:
|
|||
09.12.2015, 11:13 |
|
|
start [/forum/topic.php?fid=48&msg=39120624&tid=1856735]: |
0ms |
get settings: |
9ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
146ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
63ms |
get tp. blocked users: |
2ms |
others: | 14ms |
total: | 271ms |
0 / 0 |