|
|
|
Кто Hadoop использует - скажите что вы на нем считаете?
|
|||
|---|---|---|---|
|
#18+
Привет, сейчас есть интересное направление - BigData, Hadoop и т.д. и я даже участвовал в небольшом проекте, но всеравно не очень сильно понимаю что именно на нем считается? И как? Мы использовали его для предварительной агрегации логов чтобы потом уже гораздо меньший обьем загрузить в обычную базу и по ней считать уже окончательную аналитику. Но множество вопросов непонятны: - Какие задачи вы решаете? - Что вы используете для Map/Reduce - Java, или скриптовые языки, напр. Python, Ruby? - Сами Map/Reduce пишите или используете Pig / Hive? - Насколько сложные вычисления достаточно ли базовых знаний статистики, алгоритмов, или используете очень сложные алгоритмы? - На что уходит основное время разработки - на решение прикладных задач, обдумывание алгоритмов и написания их Map/Reduce или написания инфраструктуры вокруг хадупа, интеграция с другими системами? - Допустим вы посчитали что-то - где вы храните полученные результаты? В самом Hadoop, HTable, какой-то другой базе? - Чем деплоите кластер? Заранее спасибо за ответы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.04.2014, 19:11 |
|
||
|
Кто Hadoop использует - скажите что вы на нем считаете?
|
|||
|---|---|---|---|
|
#18+
privateПривет, сейчас есть интересное направление - BigData, Hadoop и т.д. и я даже участвовал в небольшом проекте, но всеравно не очень сильно понимаю что именно на нем считается? И как? - Какие задачи вы решаете? Разные. Тут один товарищ из Оракла сказал- "хадуп это антресолька". Т.е. дешёвое хранилище больших объёмов. private- Что вы используете для Map/Reduce - Java, или скриптовые языки, напр. Python, Ruby? java, просто потому, что единственный апологет python'а у нас- PM, а это по вопросу выбора языка имеет только совещательный голос :) private- Сами Map/Reduce пишите или используете Pig / Hive? Для больших задач- сами, если надо чего быстро прикинуть- то Hive. Глючен он страшно... private- Насколько сложные вычисления достаточно ли базовых знаний статистики, алгоритмов, или используете очень сложные алгоритмы? И сложные тоже есть. private- На что уходит основное время разработки - на решение прикладных задач, обдумывание алгоритмов и написания их Map/Reduce или написания инфраструктуры вокруг хадупа, интеграция с другими системами? У сложной задачи и алгоритм придумать сложно, чтобы кластер не треснул, и потом кластер держать, чтобы не развалился, тоже надо. private- Допустим вы посчитали что-то - где вы храните полученные результаты? В самом Hadoop, HTable, какой-то другой базе? Некоторые выгружаем в "обычные" БД. Все храним в hbas/hdfs. private- Чем деплоите кластер? Не понял. Можно на любую машину кластера (или вообще любой машины с хадупом) закинуть fat-jar и запустить "hadoop jar task.jar" Можно (если в task.jar ещё и библиотеки хадупа запихнуть) вообще с любого компьютера "java -jar task.jar" выполнить- если доступ есть- оно само на кластер задеплоится. Вот если SOLR нужен- тут да, посложнее... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.04.2014, 09:37 |
|
||
|
|

start [/forum/topic.php?fid=59&tid=2127264]: |
0ms |
get settings: |
7ms |
get forum list: |
19ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
157ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
38ms |
get tp. blocked users: |
1ms |
| others: | 217ms |
| total: | 454ms |

| 0 / 0 |
