powered by simpleCommunicator - 2.0.27     © 2024 Programmizd 02
Map
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop
15 сообщений из 15, страница 1 из 1
Hadoop
    #38066293
Фотография Роман Дынник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вопрос имеющим реальный опыт с Hadoop.

Есть некоторый граф, узлы которого являются задачами.
При этом каждый такой узел может иметь зависимости от других узлов.
Обработку некоторого подграфа можно стартовать от любого узла, при этом каждый узел в ходящий в этот запущенный подграф ожидает выполнения (уведомления о выполнении) всех своих зависимостей и запускается только тогда, когда все зависимости выполнены.
Сейчас у меня есть собственный сервис который реализует этот механизм (пока граф задач не очень большой).
Я хотел бы реализовать распределенную обработку на основе Apache Hadoop.
Есть ли что то готовое(какой то каркас) в Hadoop, что позволяет определить последовательность выполнения задач в соответствии с их зависимостями?
Или эту логику мне придется реализовывать самостоятельно?
...
Рейтинг: 0 / 0
Hadoop
    #38067951
rfq
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
"Я хотел бы реализовать распределенную обработку на основе Apache Hadoop".

А почему именно Hadoop? Он заточен под MapReduce, а у вас задача более общего вида.
Вы сначала сформулируйте требования к платформе:
- на одной машине или на кластере
- с сохранением промежуточных данных для восстановления, или без
- вычислительный граф статический или может расширяться в процессе вычислений
- нужна ли особая эффективность реализации (это если у вас миллионы узлов, исполнение каждого менее миллисекунды, так что накладные расходы способны съесть всю прибыль от распараллеливания)

Почитайте http://www.doc.ic.ac.uk/~vc100/papers/Scientific_workflow_systems.pdf
Потом погуглите java scientific workflow or dataflow.
И найдете наиболее подходящую готовую реализацию.
...
Рейтинг: 0 / 0
Hadoop
    #38068044
just_vladimir
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если верно понял задачу, то Вам нужно приведение графа к ярусно-параллельной форме. Алгоритм в принципе простой, но причем здесь Hadoop непонятно, обязательно прикрутить к этому MapReduce?
...
Рейтинг: 0 / 0
Hadoop
    #38068704
Фотография Роман Дынник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
just_vladimir,
>>обязательно прикрутить к этому MapReduce?
Да
...
Рейтинг: 0 / 0
Hadoop
    #38068714
Фотография Роман Дынник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
>>>А почему именно Hadoop? Он заточен под MapReduce, а у вас задача более общего вида.
Задача сводится к шагам: Загрузка-Вычисления-Вывод результатов
>>Вы сначала сформулируйте требования к платформе:
>>- на одной машине или на кластере
на небольшом кластере
>>- с сохранением промежуточных данных для восстановления, или без
С сохранением
>>- вычислительный граф статический или может расширяться в процессе вычислений
Пока думаю что статический, по крайней мере весь граф известен при запуске процесса
>>- нужна ли особая эффективность реализации (это если у вас миллионы узлов, исполнение каждого менее миллисекунды, так что накладные расходы способны съесть всю прибыль от распараллеливания)

пока не знаю, зависит от сложности алгоритма и величины графа.
На первое время достаточен отклик в порядке 2 сек после первоначальной загрузки исторических данных (данные впоследствии стримом подгружаются в реалтайме, или даже по таймеру)

>>>Почитайте http://www.doc.ic.ac.uk/~vc100/papers/Scientific_workflow_systems.pdf
Потом погуглите java scientific workflow or dataflow.
И найдете наиболее подходящую готовую реализацию.
Все существующие workflow системы ориентированы на старт процесса с заранее заданной точки.
Мне (упрощенно) нужен старт с произвольной точки. Смотрел много чего, но не видел подобных реализаций в существующих workflow. Знаете что то подобное?
...
Рейтинг: 0 / 0
Hadoop
    #38069927
rfq
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Роман Дынник>>>А почему именно Hadoop? Он заточен под MapReduce, а у вас задача более общего вида.
Задача сводится к шагам: Загрузка-Вычисления-Вывод результатов

Эти шаги характерны для любой вычислительной системы, при чем здесь MapReduce?
Роман ДынникВсе существующие workflow системы ориентированы на старт процесса с заранее заданной точки.
Мне (упрощенно) нужен старт с произвольной точки.
Что вы имеете ввиду под точкой старта? Это точка в пространстве графа (узел) или во времени (этап вычислений)? В обоих случаях, для исполнения заданной точки необходимо исполнить предысторию с начальной точки - как вы хотите начать исполняться с середины, не исполнив начала?
...
Рейтинг: 0 / 0
Hadoop
    #38069967
Фотография Роман Дынник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
rfq Это точка в пространстве графа (узел) или во времени (этап вычислений)? В обоих случаях, для исполнения заданной точки необходимо исполнить предысторию с начальной точки - как вы хотите начать исполняться с середины, не исполнив начала?
Это точка и в пространстве графа, и во времени.
Начальная точка характеризует какой то подпроцесс, определяемый подграфом зависимостей от этой точки.
При этом почти одновременно я могу стартовать несколько точек и если какое то подмножество точек пересекается и часть из них уже выполняется, то они не стартуют повторно.
У каждой вершины есть состояние (может быть сброшено). Если точка когда либо была успешно расчитана, то запуск какого-либо подграфа не должен вызвать ее повторный расчет(процессинг) если только не перерасчитываются нижележащие зависимости.
...
Рейтинг: 0 / 0
Hadoop
    #38069978
Фотография Роман Дынник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
rfqпри чем здесь MapReduce
MapReduce позволяет быстро выполнить загрузку и преобразование данных с расчетом агрегатов и/или каких-либо промежуточных данных, сохраняет все это в распределенной файловой системе, используя запросы к которой можно получить довольно быстрый отклик.
...
Рейтинг: 0 / 0
Hadoop
    #38069989
Фотография Роман Дынник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Каждая точка по сути это процесс MapReduce, но мне как то необходимо контролировать запуск этих процессов, некоторой специфичной логикой, основанной на ярусной форме графа.
...
Рейтинг: 0 / 0
Hadoop
    #38070364
Фотография Penkov Vladimir
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Роман Дынникrfqпри чем здесь MapReduce
MapReduce позволяет быстро выполнить загрузку и преобразование данных с расчетом агрегатов и/или каких-либо промежуточных данных, сохраняет все это в распределенной файловой системе, используя запросы к которой можно получить довольно быстрый отклик.

на 100 мегабайт данных постгре сделает это быстрее и качественнее (adHoc, все дела)

Модератор: Тема перенесена из форума "Java".
...
Рейтинг: 0 / 0
Hadoop
    #38070495
Фотография Роман Дынник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Penkov Vladimir,

я не говорил что 100 Мб...
...
Рейтинг: 0 / 0
Hadoop
    #38178005
_dodgy_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А можете хотя бы намекнуть в какой области требуются такие вычисления на больших гарфах?
...
Рейтинг: 0 / 0
Hadoop
    #38238705
serega_sh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Предлагаю Oozie. В данном инструменте есть два раздела:
1. координаторы. Представляют собой триггеры запуска чего-либо. Триггером может служить: событие во времени (через 5 минут после начала часа, раз в сутки в определнный час и т.д.), наличие флага, например файла _SUCCESS в каталоге HDFS
2. workflows (процессы?). При помощи них можно описать граф. Есть поддержка map-reduce, streming, pig, hive (к сожалению, пока что только Hive1, это ограничение легко обходится при помощи кастомного Java action или shell action с помощью вызова beline). Процесс можно форкать, джоинить.
Прямо с ходу есть ощущение, oozie сильно упростит вам жизнь.

Если что, спрашивайте.
...
Рейтинг: 0 / 0
Hadoop
    #38238715
serega_sh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
_dodgy_,

анализ соц. сетей, например.
...
Рейтинг: 0 / 0
Hadoop
    #38239099
lookat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Роман Дынник,

http://giraph.apache.org/
...
Рейтинг: 0 / 0
15 сообщений из 15, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали тему (0):
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]