|
WorkFlow система на высокопроизводительных ресурсах
|
|||
---|---|---|---|
#18+
Привет. Занимаемся разработкой системы запуска научных и производственных экспериментов на высокопроизводительных ресурсах - кластерах и суперкомпьютерах. Все ресурсы находятся в одном месте, в одной организации - вычислительный центр. Работает всё под Linux. Мы реализуем следующую архитектуру нашей системы: один сервер, графические клиенты (работают с сервером через SSL) и по одному агенту на каждом ресурсе. Агент - постоянно работающая программа, любые действия инициируются на агенте сервером. Сервер хранит данные всех пользователей, описания экспериментов, запусков, результатов и множество сопутствующих данных. Эксперимент по сути - WorkFlow - множество задач, где-то параллельных, где-то последовательных. Задачи ресурсоёмкие, запускаются только на ресурсах, выполняться могут часами, сутками, для множеств наборов данных. Сервер старается оптимально спланировать работу эксперимента, правильно подобрать ресурсы, мониторить запущенные задачи. Кроме того, передать входные данные, забрать (или запомнить местоположение) выходные данные. Что важно - система не будет использовать ресурсы монопольно, а только параллельно с другими пользователями, которые работают с ресурсами без этой системы (SSH, Shell-скрипты и т.п.). Ещё важный момент - система должна запускать задачи на ресурсах только от имени реальных пользователей, поскольку все задачи контролируются и оплачиваются. Процессорное время на ресурсах - это деньги. ВОПРОС - правильна ли текущая архитектура? Основной вопрос - про агентов? Может вообще их не надо? А просто тупо серверу по SSH коннектиться и в терминальном режиме всё делать? Или например поднимать агента от имени реальных пользователей. Почему возник вопрос - основной камень преткновения между разработчиками системы и администраторами - как запускать задачи от имени реальных пользователей. Никаких особых настроек для агентов админы делать категорически не будут. Ни возможности использовать команду sudo, ни уж тем более возможности запускать агента под рутом. Небезопасно - говорят. Вот и не знаем, что делать? Искать прорехи в архитектуре и думать о другой или спорить с админами? Всем кто откликнется - заранее спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.03.2010, 12:10 |
|
WorkFlow система на высокопроизводительных ресурсах
|
|||
---|---|---|---|
#18+
мы делали нечто подобное лет 11 назад, на CORBA 3.0 TAO. кажется запуск был все же от рута, но осуществлялся только для авторизованного пользователя системы. Т.е. если пользователь авторизовался в системе и при этом у него были права на данный CORBA объект, то от рута выполялся запуск. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.03.2010, 04:38 |
|
WorkFlow система на высокопроизводительных ресурсах
|
|||
---|---|---|---|
#18+
Mainframe_старыймы делали нечто подобное лет 11 назад, на CORBA 3.0 TAO. кажется запуск был все же от рута, но осуществлялся только для авторизованного пользователя системы. Т.е. если пользователь авторизовался в системе и при этом у него были права на данный CORBA объект, то от рута выполялся запуск. Именно 11 лет назад. Везде виртуализация, гриды, а у нас оказывается - Workflow в монопольном, терминальном режиме. Посконное, но свое родное. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.03.2010, 07:50 |
|
WorkFlow система на высокопроизводительных ресурсах
|
|||
---|---|---|---|
#18+
честно говоря, я думаю, что утрата CORBA большая утрата, чем приобретение гридов .... красивая технология .. жаль, что она несколько застряла .. но, кстати, там вопрос решался без терминалов... да еще может быть время CORBA не пришло.. по сарвнению с нйе многие нынешние решения - просто десткий лепет ... ... |
|||
:
Нравится:
Не нравится:
|
|||
09.03.2010, 08:31 |
|
WorkFlow система на высокопроизводительных ресурсах
|
|||
---|---|---|---|
#18+
Mainframe_старыйчестно говоря, я думаю, что утрата CORBA большая утрата, чем приобретение гридов .... красивая технология .. жаль, что она несколько застряла .. но, кстати, там вопрос решался без терминалов... да еще может быть время CORBA не пришло.. по сарвнению с нйе многие нынешние решения - просто десткий лепет ... Вторую скупую женскую слезу осталось пустить по DCOM, а потом перекреститься. 11 лет назад мы запускали расчетные задачи в SUN на 3-4 дня, а они спокойно распределялись по всем машинам без всяких бубнов. Похоже, кроме собственных велосипедов с КПД 1% нам ничего не светит. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.03.2010, 10:12 |
|
WorkFlow система на высокопроизводительных ресурсах
|
|||
---|---|---|---|
#18+
Не ЕС ЭВМВторую скупую женскую слезу осталось пустить по DCOM, а потом перекреститься. 11 лет назад мы запускали расчетные задачи в SUN на 3-4 дня, а они спокойно распределялись по всем машинам без всяких бубнов. Похоже, кроме собственных велосипедов с КПД 1% нам ничего не светит. ваши задачи, как я понимаю, не требовали динамического распределения. не требовали централизованного управления, ну и еще много чего не требовали .. наверное, у Кодака, Боинга, Оракла были другие задачи, что им понадобилась CORBA TAO. а вот считать 3-4 дня - гм.. плохо распределяли , ... больше ресурсов не было или распределять не получалось? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.03.2010, 10:40 |
|
WorkFlow система на высокопроизводительных ресурсах
|
|||
---|---|---|---|
#18+
Mainframe_старыйНе ЕС ЭВМВторую скупую женскую слезу осталось пустить по DCOM, а потом перекреститься. 11 лет назад мы запускали расчетные задачи в SUN на 3-4 дня, а они спокойно распределялись по всем машинам без всяких бубнов. Похоже, кроме собственных велосипедов с КПД 1% нам ничего не светит. ваши задачи, как я понимаю, не требовали динамического распределения. не требовали централизованного управления, ну и еще много чего не требовали .. наверное, у Кодака, Боинга, Оракла были другие задачи, что им понадобилась CORBA TAO. а вот считать 3-4 дня - гм.. плохо распределяли , ... больше ресурсов не было или распределять не получалось? Как я понимаю, Вы плохо улавливаете разницу между распределенными приложениями и распределенными вычислениями. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.03.2010, 12:37 |
|
WorkFlow система на высокопроизводительных ресурсах
|
|||
---|---|---|---|
#18+
Не EC ЭВМMainframe_старыймы делали нечто подобное лет 11 назад, на CORBA 3.0 TAO. кажется запуск был все же от рута, но осуществлялся только для авторизованного пользователя системы. Т.е. если пользователь авторизовался в системе и при этом у него были права на данный CORBA объект, то от рута выполялся запуск. Именно 11 лет назад. Везде виртуализация, гриды, а у нас оказывается - Workflow в монопольном, терминальном режиме. Посконное, но свое родное. Нигде не написано, что это РФ. Кстати, ваш многопроцессорный SUN 11-летней давности может быть равен по мощности одному компьютеру в сегодняшних гридах. По описанию что-то не вижу никакой глобальной проблемы. Можно биллить работу, поступающую от агентов, не по юзернейм, а по какому-нибудь дополнительному атрибуту. А можно переделать агенты так, чтобы они инициировали работы от имени юзернеймов. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.03.2010, 12:43 |
|
WorkFlow система на высокопроизводительных ресурсах
|
|||
---|---|---|---|
#18+
А6дуллаh3Не EC ЭВМMainframe_старыймы делали нечто подобное лет 11 назад, на CORBA 3.0 TAO. кажется запуск был все же от рута, но осуществлялся только для авторизованного пользователя системы. Т.е. если пользователь авторизовался в системе и при этом у него были права на данный CORBA объект, то от рута выполялся запуск. Именно 11 лет назад. Везде виртуализация, гриды, а у нас оказывается - Workflow в монопольном, терминальном режиме. Посконное, но свое родное. Нигде не написано, что это РФ. Кстати, ваш многопроцессорный SUN 11-летней давности может быть равен по мощности одному компьютеру в сегодняшних гридах. Кстати автор а они спокойно распределялись по всем машинам без всяких бубнов с динамическим распределением и централизованным управлением. Это 11 лет назад, а сейчас ... |
|||
:
Нравится:
Не нравится:
|
|||
09.03.2010, 13:02 |
|
|
start [/forum/topic.php?fid=33&fpage=34&tid=1548358]: |
0ms |
get settings: |
8ms |
get forum list: |
10ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
43ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
46ms |
get tp. blocked users: |
2ms |
others: | 11ms |
total: | 140ms |
0 / 0 |