|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Хочу задать вопрос, как начать двигаться в направлении BigData. Я программист со стажем и уже не столь молод. Сейчас специализируюсь на SQL Server / OLAP, работаю в области BI в крупной онлайн торговой площадке. Имею также некоторый опыт с Oracle. В прошлом имел дело с C# .NET , до этого с C++ и Turbo Pascal. Чувствую, что необходимо прокачиваться в направлении BigData. Если ставить вопрос так: с чего начать. На что делать акцент, если я в данный момент в основном ориентирован на Microsoft. Какие технологии стоит рассматривать? Какие книги, мануалы стоит читать? На какие курсы сходить? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2014, 18:31 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
a_voronin, если занимаетесь аналитикой, то посмотрите в сторону языка R и его применения в BigData. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2014, 19:21 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Вступите в группу Big Data Developers in Moscow . ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2014, 19:22 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANA, опа ) весьма полезная ссылка ) Спасибо ! ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2014, 22:52 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Единственый способ двигаться к БигДата - работать с ней. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.10.2014, 21:56 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
TomatoЕдинственый способ двигаться к БигДата - работать с ней. да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.10.2014, 12:49 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhTomatoЕдинственый способ двигаться к БигДата - работать с ней. да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата.Гы. Каких таких специальных данных? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.10.2014, 12:56 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAWinnipuhпропущено... да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата.Гы. Каких таких специальных данных? гы-гы. неких, например, которые удобнее обрабатывать не в реляцонных базах, а в каком-нибудь noSql ... |
|||
:
Нравится:
Не нравится:
|
|||
06.10.2014, 19:58 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhskyANAпропущено... Гы. Каких таких специальных данных? гы-гы. неких, например, которые удобнее обрабатывать не в реляцонных базах, а в каком-нибудь noSql Понятно, Вы не в теме. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.10.2014, 20:06 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAWinnipuhпропущено... гы-гы. неких, например, которые удобнее обрабатывать не в реляцонных базах, а в каком-нибудь noSql Понятно, Вы не в теме. не в какой теме? теме БигДата, как чего-то нового надвигающегося на нас? тогда нет. Это ведь не какая-то революционная технология. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.10.2014, 20:45 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhskyANAпропущено... Понятно, Вы не в теме. не в какой теме?Нет в BigData никаких специальных данных. Winnipuhтеме БигДата, как чего-то нового надвигающегося на нас? тогда нет. Это ведь не какая-то революционная технология.Ну да. MapReduce реализовали в Google ещё в 2003-м. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.10.2014, 22:09 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
По работе пришлось столкнуться с MongoDb, очень узкозаточенная СУБД, без транзакций,без подтверждения записи,но с хорошей горизонтальной масштабируемостью. Сложно представить где её область применения, кроме веб. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 05:32 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
GallemarСложно представить где её область применения, кроме веб.Web :) Она для этого и создавалась, почитайте историю проекта. P.S.: транзакции реализовали самостоятельно. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 07:01 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Gallemar, и как это без потверждения записи? А Write Concern ? ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 07:02 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANA,оно реализовано в 2.6, сорри, про более ранние версии говорил:) ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 07:06 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
GallemarskyANA,оно реализовано в 2.6, сорри, про более ранние версии говорил:)С чего Вы это взяли? Write Concern давно уже есть (я с MongoDB познакомился в январе 2012, тогда уже был). В ноябре 2012 были внесены изменения в поведение по умолчанию: Default Write Concern Change . В 2.6 добавили изменения в виде "new write-operation protocol". ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 07:19 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAWinnipuhпропущено... не в какой теме? Нет в BigData никаких специальных данных. Winnipuhтеме БигДата, как чего-то нового надвигающегося на нас? тогда нет. Это ведь не какая-то революционная технология.Ну да. MapReduce реализовали в Google ещё в 2003-м. нет, конечно, данные - они и в Африке данные. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 12:23 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhskyANAпропущено... Нет в BigData никаких специальных данных. пропущено... Ну да. MapReduce реализовали в Google ещё в 2003-м. нет, конечно, данные - они и в Африке данные. Как легко Вы меняете свою точку зрения. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 12:50 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAWinnipuhпропущено... нет, конечно, данные - они и в Африке данные. Как легко Вы меняете свою точку зрения. ага... давайте прицепимся к слову и будем развивать дискуссию...в бигдата никаких даных вообще нет, это же всего лишь название. Данные есть в конкретных проектах, реализациях. Специфика обработки и хранения данных, если вам так удобнее ;-) ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 13:43 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
По большому счёту, BigData это скорее "проблема", которая связана с ростом объёмов данных, гуляющих по разного рода системам. Логи там всякие, транзакции, информация с датчиков и физических устройств. Можно её херить, а можно куда-то складывать и обрабатывать по мере надобности. И данные эти не обязательно неструктурированные. Просто их зело много. Хранить их в традиционной РСУБД на дорогих хранилках это сильно дорого, и обрабатывать медленно, а чтобы обрабатывать быстрее, надо индексы и всяку прочую фигню создавать, что ещё более увеличивает объёмы. Посему юзаем Hadoop ибо позволяет дёшево хранить и в приемлемое время процессить. И безболезненно наращивать объём + производительность добавлением нод. Т.е. имеем одно из решений проблемы BigData. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 14:35 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Т.о. NoSQL не обязательно BigData, а BigData не обязательно NoSQL. Тот же Hive вполне себе поддерживает некое подобие SQL, хотя РСУБД, конечно, никак не является. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 14:40 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Что касаемо вопроса топикастера, то настраиваем тестовый кластер на виртуалках, заливаем данные в hdfs, и изучаем стек продуктов hadoop. А там будет понятно, надо оно Вам или нет. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 14:52 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhskyANAпропущено... Как легко Вы меняете свою точку зрения. ага... давайте прицепимся к слову и будем развивать дискуссию...в бигдата никаких даных вообще нет, это же всего лишь название. Данные есть в конкретных проектах, реализациях. Специфика обработки и хранения данных, если вам так удобнее ;-)Мне лично всё равно, что Вы в теме плаваете :) ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 15:21 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Очень лысыйТ.о. NoSQL не обязательно BigData, а BigData не обязательно NoSQL. Тот же Hive вполне себе поддерживает некое подобие SQL, хотя РСУБД, конечно, никак не является.Движки для Hadoop сейчас поддерживают SQL-92 (где частично, где полностью). Не все, но если надо SQL, то бери и пользуйся. IBM так вовсю рекламирует. Ну а фигли, у них внутри DB2 движок. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 15:27 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAWinnipuhпропущено... ага... давайте прицепимся к слову и будем развивать дискуссию...в бигдата никаких даных вообще нет, это же всего лишь название. Данные есть в конкретных проектах, реализациях. Специфика обработки и хранения данных, если вам так удобнее ;-)Мне лично всё равно, что Вы в теме плаваете :) Да какая там тема, БигДата - по сути всего лишь слова, рассуждения и не более того. Скажем честно: там негде плавать. Но для важности некоторые юзеры делают вид, что они "в теме", и скоро не будет ни реляционных, никаких баз, а сплошной БигДата. А что это так никто и не может сказать четко. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 15:30 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Очень лысыйЧто касаемо вопроса топикастера, то настраиваем тестовый кластер на виртуалках, заливаем данные в hdfs, и изучаем стек продуктов hadoop. А там будет понятно, надо оно Вам или нет.Проблема в том, что ТС ориентирован на Microsoft. И только у IMB вроде как есть какая-то поддержка .Net, да и то в силу того, что внутри DB2, а под неё уже сто лет в обед как есть провайдер. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 15:30 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhskyANAпропущено... Мне лично всё равно, что Вы в теме плаваете :) Да какая там тема, БигДата - по сути всего лишь слова, рассуждения и не более того. Скажем честно: там негде плавать. Но для важности некоторые юзеры делают вид, что они "в теме", и скоро не будет ни реляционных, никаких баз, а сплошной БигДата. А что это так никто и не может сказать четко. Опять Вы фигню пишете. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 15:30 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAWinnipuhпропущено... Да какая там тема, БигДата - по сути всего лишь слова, рассуждения и не более того. Скажем честно: там негде плавать. Но для важности некоторые юзеры делают вид, что они "в теме", и скоро не будет ни реляционных, никаких баз, а сплошной БигДата. А что это так никто и не может сказать четко. Опять Вы фигню пишете. а можно сначала привести четкое определение, что же такое БигДата, а потом возможно употреблять слова "фигню пишете" и пр.? а то кроме "фигню", "плаваете", "не в теме", "гы" я так и не нашел нормального вменяемого описания. Спасибо заранее. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 15:37 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
BigData - это термин, описывающий большой объём постоянно растущих как структурированных, так и не структурированных данных, анализ которых полезен и для бизнеса, и для социума. Устроит? ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 16:17 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
К BigData относят аналитику, построенную на Hadoop; потоковые вычисления анализ текстов... ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 16:22 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANABigData - это термин, описывающий большой объём постоянно растущих как структурированных, так и не структурированных данных, анализ которых полезен и для бизнеса, и для социума. Устроит? Да, как такое общее выражение, конечно. Скорее даже эмоциональное. ;-) Ведь можно так спросить"большой" - это сколько? Будет ли это большим завтра? То же и об этом "анализ которых полезен и для бизнеса, и для социума" Ну в общем вроде все понимают, что это есть, что это нужно, но я имхую, что сейчас это скорее такое "общественное движение", чем что-то конкретное. Ведь скажем Microsoft 17 лет назад запустила terraserver, там были ого какие бигдата, и примечательно, что термина не было, а бигдата уже были. То же и гугла касается и т.д. Каждый после анализа сппецифики данных (см. начальне посты и свою критику ;-) ) реализовывал по-своему и оптимально. (это я имхую, естественно) ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 17:40 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhskyANABigData - это термин, описывающий большой объём постоянно растущих как структурированных, так и не структурированных данных, анализ которых полезен и для бизнеса, и для социума. Устроит? Да, как такое общее выражение, конечно. Скорее даже эмоциональное. ;-) Ведь можно так спросить"большой" - это сколько? Будет ли это большим завтра? То же и об этом "анализ которых полезен и для бизнеса, и для социума" Ну в общем вроде все понимают, что это есть, что это нужно, но я имхую, что сейчас это скорее такое "общественное движение", чем что-то конкретное. Ведь скажем Microsoft 17 лет назад запустила terraserver, там были ого какие бигдата, и примечательно, что термина не было, а бигдата уже были. То же и гугла касается и т.д. Каждый после анализа сппецифики данных (см. начальне посты и свою критику ;-) ) реализовывал по-своему и оптимально. (это я имхую, естественно)Мда... А разработали десяток движков для Hadoop так, на общественных началах, не понятно для чего. Вообщем начали Вы про какую-то узкую нишу и специальные данные, то есть какую-то конкретную область применения. А закончили тем, что на самом деле никто не понимает что это и зачем нужно. Смешно, ей-богу :) ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 18:58 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Winnipuh, Вы, например, знакомы с таким понятием, как "Common conversion activities"? ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 19:15 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAWinnipuh, Вы, например, знакомы с таким понятием, как "Common conversion activities"? Очень поверхностно, я другим занимаюсь. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 20:52 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhskyANAWinnipuh, Вы, например, знакомы с таким понятием, как "Common conversion activities"? Очень поверхностно, я другим занимаюсь.Чем? ... |
|||
:
Нравится:
Не нравится:
|
|||
07.10.2014, 21:08 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAWinnipuhпропущено... Очень поверхностно, я другим занимаюсь.Чем? фигнёй всякой ... |
|||
:
Нравится:
Не нравится:
|
|||
08.10.2014, 11:34 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhskyANAпропущено... Чем? фигнёй всякой О, мы достигли консенсуса :) ... |
|||
:
Нравится:
Не нравится:
|
|||
08.10.2014, 11:41 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAWinnipuhпропущено... фигнёй всякой О, мы достигли консенсуса :) э-не, это разные вещи, юзер может о себе такое заявить, а другой юзер не должен себе такое позволять, если он интеллигентный юзер ;-) ... |
|||
:
Нравится:
Не нравится:
|
|||
08.10.2014, 12:43 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhskyANAпропущено... О, мы достигли консенсуса :) э-не, это разные вещи, юзер может о себе такое заявить, а другой юзер не должен себе такое позволять, если он интеллигентный юзер ;-)Дак я в последнем предложении вполне интеллигентно выразился ... |
|||
:
Нравится:
Не нравится:
|
|||
08.10.2014, 12:49 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Хотелось бы узнать у автора, удалось ли куда продвинуться? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2014, 10:40 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkХотелось бы узнать у автора, удалось ли куда продвинуться? Меня больше волнует проблема не хранения, а доступа к данным. т.к. сейчас единственный реальный инструмент, это олап. Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2014, 10:43 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллk, и что конкретно Вас интересует? Поможет-ли MapReduce? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2014, 13:54 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkкириллkХотелось бы узнать у автора, удалось ли куда продвинуться? Меня больше волнует проблема не хранения, а доступа к данным. т.к. сейчас единственный реальный инструмент, это олап. Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно. in-memory кубы на подходе ... |
|||
:
Нравится:
Не нравится:
|
|||
22.10.2014, 12:22 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ivan Durakкириллkпропущено... Меня больше волнует проблема не хранения, а доступа к данным. т.к. сейчас единственный реальный инструмент, это олап. Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно. in-memory кубы на подходеХм, вроде как начало In-Memory OLAP было положено ещё в SQL Server 2008 R2. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.10.2014, 13:23 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAкириллk, и что конкретно Вас интересует? Поможет-ли MapReduce? Мне кажется для аналитики "хадуп" не нужен Вообще хранить большие объемы не проблема. дисков побольше и партиционирование таблицы Проблема в том чтобы дать пользователю инструмент крутить эти данные. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.10.2014, 14:18 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkskyANAкириллk, и что конкретно Вас интересует? Поможет-ли MapReduce? Мне кажется для аналитики "хадуп" не нужен Вообще хранить большие объемы не проблема. дисков побольше и партиционирование таблицы Проблема в том чтобы дать пользователю инструмент крутить эти данные.Вас сложно понять. "хадуп" - это одна из реализаций MapReduce. Какой такой инструмент Вы хотите дать пользователю, на каких принципах основанный? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.10.2014, 14:47 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Вообще, использовать что-либо из экосистемы Hadoop для целей традиционного BI это задача достаточно нетривиальная. Но если данные прирастают по нескольку терабайт в месяц, то ворочать их на обычных системах, даже при наличии быстрых хранилок, становится очень печально и приходится чесать репу. Ибо хадуп таки хоть неспешно, но результат возвращает и его можно дождаться. Впрочем, манагеры из IT такой ситуации рады обычно. Больше быстрых хранилок и дорогих железок вкупе с разными там ораклами - больше откатов. А на хадупах руки не нагреешь сильно. Печаль. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.10.2014, 15:14 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллk Меня больше волнует проблема не хранения, а доступа к данным. т.к. сейчас единственный реальный инструмент, это олап. Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно. Посмотрите решение от Intersystems В частности технология DeepSee для бизнес-аналитики ... |
|||
:
Нравится:
Не нравится:
|
|||
22.10.2014, 16:20 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkкириллkХотелось бы узнать у автора, удалось ли куда продвинуться? Меня больше волнует проблема не хранения, а доступа к данным. т.к. сейчас единственный реальный инструмент, это олап. Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно. Да ерунду не говорите про единственный инструмент, олап, терабайты... Вон в Фейсбуке Вертика ворочает 15 Петабайт и ничего, все довольны. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.10.2014, 23:35 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Vovakaкириллkпропущено... Меня больше волнует проблема не хранения, а доступа к данным. т.к. сейчас единственный реальный инструмент, это олап. Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно. Да ерунду не говорите про единственный инструмент, олап, терабайты... Вон в Фейсбуке Вертика ворочает 15 Петабайт и ничего, все довольны. Я говорю про единственный инструмент для аналитиков. Или Вы думаете аналитики фейсбука строят матрицы и воронки в экселе подключаясь к вертике? ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2014, 10:11 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллk Я говорю про единственный инструмент для аналитиков. Или Вы думаете аналитики фейсбука строят матрицы и воронки в экселе подключаясь к вертике? Microstrategy там на 100+ серверах :) ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2014, 18:14 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Vovaka, Это шутка? Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами Кубы, хадуп, не важно. Но не вижу такого инструмента ... |
|||
:
Нравится:
Не нравится:
|
|||
24.10.2014, 14:57 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkVovaka, Это шутка? Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами Кубы, хадуп, не важно. Но не вижу такого инструментаХм. MATLAB? Язык R? BigInsights? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.10.2014, 15:33 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkVovaka, Это шутка? Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами Кубы, хадуп, не важно. Но не вижу такого инструмента зачем в екселе?? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.10.2014, 23:47 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ivan Durak, потому что бизнес любит эксель :) ... |
|||
:
Нравится:
Не нравится:
|
|||
28.10.2014, 10:54 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллk, Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.10.2014, 11:06 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkIvan Durak, потому что бизнес любит эксель :) мой бизнес любит sap, sas и писать sql ... |
|||
:
Нравится:
Не нравится:
|
|||
28.10.2014, 11:28 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
А мне на собеседе в какой-то конторе говорят: а мы хадуп поюзали, тормозной он, запилили свои ништяки прямо на c++ и теперь типа мы прёмся... ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2014, 15:34 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAкириллk, Вы не можете нагуглить дижок , через который подключить Excel к "Кубы, хадуп, не важно"? не все могут нагуглить дижок ... |
|||
:
Нравится:
Не нравится:
|
|||
15.11.2014, 12:07 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhTomatoЕдинственый способ двигаться к БигДата - работать с ней. да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата. Статья на Хабре: IBM запускает совместные магистерские программы в области Больших Данных с ведущими российскими университетами. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.11.2014, 14:55 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
как думаете hadoop поднимать на red hat (linux) или windows 7? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 00:49 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkкак думаете hadoop поднимать на red hat (linux) или windows 7?Да на чём проще, на том и поднимайте. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 09:55 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkкак думаете hadoop поднимать на red hat (linux) или windows 7? Вроде как под виндой его уже можно запускать, но зачем лишние проблемы? hadoop и так до сих пор напоминается собранный на соплях прототип. linux по вкусу- гораздо спокойнее будет. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 09:55 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhTomatoЕдинственый способ двигаться к БигДата - работать с ней. да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата. По оценкам экспертов уже к 2015 году по всему миру будет создано 4,4 млн. рабочих мест для специалистов в области работы с Большими Данными. Отсюда. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 16:11 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAкириллkкак думаете hadoop поднимать на red hat (linux) или windows 7?Да на чём проще, на том и поднимайте. Я пробовал подымать его под виндой полтора года назад, в принципе работает, но это явно не для продакшина, т.к. пришлось похачить кучу скприптов в процессе. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.11.2014, 12:55 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Вот, кстати, никогда не мог понять, зачем ярд строк в Excel?? что "бизнес" или аналитик поймет в этой простыне?? Даже когда ярд грузят в Qlik, я сразу говорю - неправильно поставлена задача. Только в одном случае, пожалуй - есть куча данных, а что смотреть - непонятно. Да и то, в этом случае - все данные не нужны. Не надо данные за 5 лет, чтобы понять суть задачи и агрегировать данные / разбить задачу на куски / детализировать требования, что хотим получить. В хадуп, агрегация, мат.стат / datamining (тот же Mahout)- результаты можно вертеть где угдодно. Хоти все проводки - что ж, прямой запрос к базе (или прямой, или отдельные инструменты - тут важен план запроса, чтобы базу не положить) - и извольте простыню. С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
17.12.2014, 15:59 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Прошло пол года в поисках компаний с хадупом Пока безрезультатно ) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 17:00 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ищи со Spark'ом и Python либо Scala ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 17:11 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ВжикИщи со Spark'ом и Python либо Scala Спасибо. Искал по запросу HDP Developer ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 18:08 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAкириллk, Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"? Я месяц назад гуглил, результат был нулевой. Потом взял в руки Мондриан, пофиксил код так, чтобы он работал со Spark SQL, а также пофиксил код, отвечающий за генерацию XMLA протокола. Получился нормальный ROLAP сервер, слушающий XMLA запросы по HTTP, к которому Ексель коннектится как к родному Analysis Services. Вот только руки не доходят опубликовать на блоге все: и бинарники, и инструкцию, и рассказ о том, как делал. Пришлите запрос на ibobak at gmail dot com - вышлю вам бинарники, прогоните на своих данных, скажете как работает. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.06.2015, 02:25 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Игорь БобакskyANAкириллk, Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"? Я месяц назад гуглил, результат был нулевой. Потом взял в руки Мондриан, пофиксил код так, чтобы он работал со Spark SQL, а также пофиксил код, отвечающий за генерацию XMLA протокола. Получился нормальный ROLAP сервер, слушающий XMLA запросы по HTTP, к которому Ексель коннектится как к родному Analysis Services. Вот только руки не доходят опубликовать на блоге все: и бинарники, и инструкцию, и рассказ о том, как делал. Пришлите запрос на ibobak at gmail dot com - вышлю вам бинарники, прогоните на своих данных, скажете как работает. И спарковского sql хватает чтобы AS делал все что нужно??? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.06.2015, 15:33 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Иван, Вы наверное не поняли. MSAS вообще не применяется здесь. Есть хадуп. Есть хайв. Есть Spark SQL, работающий с данными, которые в хайве, только быстрее, чем сам хайв. На порядок быстрее. Есть Excel, в нем обычная пайвот таблица. В екселе коннектимся к Microsoft Analysis Services, но в адресной строке пишем http://адрес-XMLA-сервера-мондриана , Ескель наивно думает что это MSAS, а на самом деле это Мондриан, работающий по тому же протоколу XMLA. На Мондриан из екселя уходит MDX, а с Мондриана в Spark SQL уходят SQL-запросы, которые выполняются кластером по in-memory-принципу. Обо всем этом я обязательно напишу на блоге, и будет это в ближайшие дни. ---------------- Но мы увели начальную тему разговора автора топика. Предлагаю вернуться к ней. когда автор спрашивает "Как двигаться в сторону BigData", надо поставить себе вначале вопрос: чем будете заниматься - разработкой под Big Data, или администрированием/настройкой кластеров? Я лично вошел в Big Data около полугода назад. Еще здесь на форуме задавал вопросы о книжках, и поскольку здесь людей мало, то они светятся на первой странице. Так вот, НЕ НАЧИНАЙТЕ ИЗУЧАТЬ С DEFINITIVE GUIDE - вы его всеравно не поймете. Первое, что надо сделать - научиться программировать на джаве, и хотя бы чуть чуть выучить линукс. Я советую пойти по такому пути (полезно будет для тех, кто как и я пришел с мира Майкрософта, C#, .NET, MSAS, MS SQL): возьмите для начала готовую виртуалку Hortonworks Sandbox (есть в сетке), накрутите на нее GUI - я описал как это сделать, поставьте туда InttelliJ IDEA, и сделайте для начала Hello World - добейтесь того, чтобы вы понимали где среда разработки, как в ней сделать jar-файл из вашего приложения, как этот jar запустить в консоли и что такое линуксовая консоль вообще, что такое classpath, и т.д. Порешайте немного алгоритмических задачек например отсюда https://leetcode.com/problemset/algorithms/ чтобы понять что такое HashMap, TreeMap, HashSet, List<>, StringBuffer (? кажется? может путаю с C# StringBuilder). Разберитесь с тем, как работает сериализация - как записать на диск объект и считать его с диска. Напишите программку, читающую данные из MySQL через JDBC - поймите как работает JDBC (на сендбокс-машинке уже стоит MySQL - можете только для удобства поставить туда MySQL Workbench). Когда разобрались с джавой, разберитесь с тем, как работает maven - без него вообще ничего делать нельзя (нет, ну конечно можно - но это "траходром" с поиском "а какая jar-ка нужна, чтобы наш mapreduce-джоб откомпилировался"). И разберитесь как он интегрируется с IntelliJ. Когда поняли, как работает Maven, возьмите тот пример с mapreduce word count, и попытайтесь реализовать. Особенно важно найти то, на какие jar надо ссылаться, а с этим поможет maven. Запустите его вначале локально (без кластера). Потом "hadoop jar ..." - в кластере. Самое тяжелое - это "пробить стенку", в том смысле, что вот "вижу я код word count, а как его компильнуть, как запустить, куда деплоить, что происходит" - вот это понять тяжело. Но вот когда поймете, то все пойдет как по маслу дальше. На счет книжек. Самое противное в книжках - это отсутствие у автора понимания, что человек ничего не знает. Вот пишет автор теорию, доходим до какого-то места, и бац - текст "а давайте запустим вот этот код". А ГДЕ ЗАПУСТИМ? А КАК? И приехали - берем в руки другую книжку.... Потом начинаем понимать, что толку с книжек - как с быка молока (в плане НАУЧИТСЯ ПРАКТИЧЕСКИ ЧТО-ТО ДЕЛАТЬ, а не понять теорию). В конце концов заканчивается тем, что вы просто перебираете кучу примеров кода из блогов, делаете их дебаг в IntelliJ, и до вас начинает доходить. А вот дальше можно уже почитать и теорию - definitive guide например. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.06.2015, 19:19 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ну не-знаю, не знаю... Я конечно же за просвещение и описание как Вы это сделали... Но путь с Java в сторону Big Data считаю несколько излишним. Можно начать с курса на EdX "BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark" так можно познакомиться сразу с двумя зайцами - Spark и Python, заодно немного Machine Learning. Так тема хотя бы будет приоткрыта. А дальше решать что по душе из перечисленного или их комбинаций Spark, Python, Machine Learning, туда и двигать. Hadoop сам по себе - всего лишь распределенная файловая система для больших данных + параллельные вычисления, программирование + ETL через доп. инструменты. По поводу Hadoop - Definitive Guide, конечно - сразу не стоит) ... |
|||
:
Нравится:
Не нравится:
|
|||
28.06.2015, 20:12 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Вжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю. Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.06.2015, 21:47 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Игорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю. Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит. Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 11:59 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
a_voroninИгорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю. Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит. Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData. + и мне тоже. Для начала хотелось бы понять,а что же это "Big Data" и потом двигаться. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 13:11 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
BigData начинается от десятков-сотен террабайт и петабайтов, когда субд уже не могут или оперативной памяти уже не достаточно. Вот тут пример: https://www.microstrategy.com/Strategy/media/downloads/training-events/microstrategy-world/2014-vegas/MSTR-World-Yahoo!-Taiwan.pdf?ext=.pdf Там же и инструменты... Но лучше не "что это такое", а чего в текущем варианте не хватает, может быть она и не нужна - BigData))) ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 13:44 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ВжикBigData начинается от десятков-сотен террабайт и петабайтов, когда субд уже не могут или оперативной памяти уже не достаточно. Вот тут пример: https://www.microstrategy.com/Strategy/media/downloads/training-events/microstrategy-world/2014-vegas/MSTR-World-Yahoo!-Taiwan.pdf?ext=.pdf Там же и инструменты... Но лучше не "что это такое", а чего в текущем варианте не хватает, может быть она и не нужна - BigData))) имхую, что немножко мутно написано: 1. на сотне террабайтов "субд уже не могут"? с чего бы это? 2. "оперативной памяти уже не достаточно" - кому? сколько? и кто требует памяти? Разве SQL Server или PostgreSQL отказывался работать от недостатка памяти? ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 15:51 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Winnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это? 2. "оперативной памяти уже не достаточно" - кому? сколько? и кто требует памяти? Разве SQL Server или PostgreSQL отказывался работать от недостатка памяти? "субд уже не могут" = медленно ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 16:39 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Winnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это? Вопрос не в "могут", а в "могут на доступном по деньгам железе". Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 16:57 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Alexey TominWinnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это? Вопрос не в "могут", а в "могут на доступном по деньгам железе". Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь. вся бигдата - это хадуп. Не больше и не меньше. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 17:13 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Alexey TominWinnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это? Вопрос не в "могут", а в "могут на доступном по деньгам железе". Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь. вроде звучит правильно, но ведь здесь "bigdata" - некое волшебное слово, за которым непонятно что стоит. Если SQL Server (PostgreSQL и т.д.) не справляется на данном хардваре то базу можно сделать распределенной, репликации, шардинг и пр. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.06.2015, 10:05 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Репликация и шардинг - это все не о том, вы не получите MPP. Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.06.2015, 10:35 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ВжикРепликация и шардинг - это все не о том, вы не получите MPP. Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики. вот, я и пытаюсь понять что это и с чем его едят. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.06.2015, 10:38 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ВжикРепликация и шардинг - это все не о том, вы не получите MPP. Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики. а че, без Machine Learnin - это не бигдата!?? Вот те раз... ... |
|||
:
Нравится:
Не нравится:
|
|||
30.06.2015, 11:59 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ivan DurakAlexey Tominпропущено... Вопрос не в "могут", а в "могут на доступном по деньгам железе". Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь. вся бигдата - это хадуп. Не больше и не меньше. Это заблуждение !!! Big Data - это не только Hadoop. --------------------------------------------------------------------- IBM’s vision - Big Data is not just Hadoop “There’s a belief that if you want big data, you need to go out and buy Hadoop and then you’re pretty much set. People shouldn’t get ideas about turning off their relational systems and replacing them with Hadoop… As we start thinking about big data from the perspective of business needs, we’re realizing that Hadoop isn’t always the best tool for everything we need to do, and that using the wrong tool can sometimes be painful.” Ken Rudin Head of Analytics at Facebook => Hadoop will be an important part of information architectures for years to come, but it will not take over the world or even replace most traditional technologies --------------------------------------------------------------------- Kind regards, Vadim. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.06.2015, 13:44 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
a_voroninИгорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю. Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит. Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData. Для начала начните с того, что поднимите для себя сам хадуп - здесь моя статья http://ihorbobak.com/index.php/2015/05/06/installing-hadoop-using-ambari-server/ и среды разработки http://ihorbobak.com/index.php/2015/06/23/installing-development-tools-on-hadoop/ на отдельной виртуалке. Выучите java, разберитесь хорошо с maven, и реализуйте на IntelliJ IDEA всем известный пример задачи с wordcount http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html но вот только не пытайтесь этот код компилировать тем способом, что описано в тьюториале, потому что это маразм. Лучше всего работать в IntelliJ с помощью maven, используя зависимость <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.0</version> </dependency> Но для начала скачайте Hadoop_Fundamentals_LiveLessons_2nd_Edition (есть на пиратских источниках это видео - здесь не имею права приводить), поймите что есть что, поймите как файлы в HDFS запихивать, как их оттуда вынимать и т.д. - базовые вещи. А то даже для реализации wordcount Вам придется файл в HDFS положить как-то. Потом поставьте перед собою более сложную задачу. Я когда учился, поставил перед собою задачу сделать анализ логов веб-сервера на предмет того, из какой страны сколько раз каждый URL запрашивали в каком месяце. Логи взял у друга с его веб-сервера (да этого добра можно найти валом), потом здесь http://www.ip2nation.com/ вытянул БД на mysql, которая ставит в соответствие диапазон IP адресов стране, из этого добра создал zip файл, содержащий отсортированный список, класс, который по IP адресу отдает страну, этот zip файл через distributed cache пропихнул из кода драйвера (перед тем как делать join на уровне mapper-а). Пришлось почитать книжку hadoop mapreduce cookbook и т.д. Вы себе можете и другую задачу поставить, только желательно посложнее чем wordcount. Тут важно следующее: попробуйте хоть что-то сделать. Вот когда поймете как работает Hadoop. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.07.2015, 17:31 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Да, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать, потому что это извращенство. Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.07.2015, 17:54 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Игорь БобакДа, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать , потому что это извращенство . Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает. ну а кроме эмоций где же аргументы? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2015, 12:02 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhИгорь БобакДа, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать , потому что это извращенство . Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает. ну а кроме эмоций где же аргументы? :) Версия 1 хадупа в общем и целом не работала под windows. Вторая- потребует некоторой доработки напильником . При этом CDH, который стоит рассматривать, про windows не знает . В целом- оно действительно, не очень, на windows ставить. Не то, чтобы извращение, но могут возникнуть проблемы, по которым никто ничего не подскажет- типа в Микрософт пишите :D Про "не убунту"- это пусть Бобак рассказывает, что ему приснилось- на убунте LTE очень даже кластеры работают, да и вообще- разница не стоит того, чтобы менять убунту на центос. Вот если поднимать виртуалку- тут да, лучше ставить там то же, что и на серваках. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2015, 13:12 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Вообщем поиграл я с hortonworks сделал табличку в 1 000 000 000 записей. скормил это hortonworks Он подавился. вот думаю что делать дальше ) ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2015, 15:05 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллk, Как я понимаю без знаний по java к hadoop лучше не подходить ) ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2015, 15:06 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkВообщем поиграл я с hortonworks сделал табличку в 1 000 000 000 записей. скормил это hortonworks Он подавился. вот думаю что делать дальше )Звучит как "скормил миллиард записей Ubuntu. Он подавился". И о чем это говорит? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2015, 22:48 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkсделал табличку в 1 000 000 000 записей. скормил это hortonworks вскормил это куда? в sandbox? вскармливал каким механизмом? sqoop? инструкцию прочел о распараллеливании (параметр -m) ? кириллkОн подавился. вот думаю что делать дальше ) он подавился выполняя что? втягивание этих данных? или подавился на этапе последующей выборки? хард какой? скорость мерял кто-нибудь? короче, объясните толком как делали, какое железо, откуда данные тянули, а дальше будем думать. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.07.2015, 22:17 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Игорь Бобаккириллkсделал табличку в 1 000 000 000 записей. скормил это hortonworks вскормил это куда? в sandbox? вскармливал каким механизмом? sqoop? инструкцию прочел о распараллеливании (параметр -m) ? кириллkОн подавился. вот думаю что делать дальше ) он подавился выполняя что? втягивание этих данных? или подавился на этапе последующей выборки? хард какой? скорость мерял кто-нибудь? короче, объясните толком как делали, какое железо, откуда данные тянули, а дальше будем думать. Рассказываю: в хортоне есть 15 гб свободного места. Я сгенерировал простой тестовый файл с 2 строками: "дата" , "значение". положил это на жесткий диск в в хортоне далее через интерфейс хортона, выбрал этот файл и нажал "обработать" и усе. крутисля 2 суток пока я его не остановил ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2015, 11:31 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
[quot Игорь Бобак][quot a_voronin]пропущено... Для начала начните с того, что поднимите для себя сам хадуп - здесь моя статья http://ihorbobak.com/index.php/2015/05/06/installing-hadoop-using-ambari-server/ и среды разработки http://ihorbobak.com/index.php/2015/06/23/installing-development-tools-on-hadoop/ на отдельной виртуалке. Почитал я статьи ) В целом вообще понятно. 1. начала настроить Network Settings Enable Networks Disabling IP Version 6 Disabling Firewall Disable the THP Enable NTPD 2. Далее установить веб морду ambari и в ней уже настраивать hadoop Я попробую на днях установить следуя вашей инструкии. Пока у меня голая система centos. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2015, 11:49 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Т.е. ты залил на виртуалку с хортоном 15 гигов и он подавился? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2015, 05:38 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ApexТ.е. ты залил на виртуалку с хортоном 15 гигов и он подавился? как в анекдоте: "выпил 3 бутылки водки, закусил печенькой - что-то мне плохо. Наверное отравился печенькой" ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2015, 09:03 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ivan DurakApexТ.е. ты залил на виртуалку с хортоном 15 гигов и он подавился? как в анекдоте: "выпил 3 бутылки водки, закусил печенькой - что-то мне плохо. Наверное отравился печенькой" А что не так? я хотел его протестировать на большом объеме. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2015, 10:32 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkIvan Durakпропущено... как в анекдоте: "выпил 3 бутылки водки, закусил печенькой - что-то мне плохо. Наверное отравился печенькой" А что не так? я хотел его протестировать на большом объеме. Действительно, что может быть не так с нагрузочным тестированием на виртуальной машине... ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 00:19 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Пару слов про Big Data. Пож этими словами подразумавают: 1. Маркетинговое понятие. Когда очень МНОГО данных (счет идет на петабайты или сотни терабайтов), как правило НЕСТРУКТУРИРОВАННЫХ, и с ними нужно что-то делать. 2. Железка от Оракл которая называется BigData. Решить проблему Big Data как правило пытаются через много дешевого железа + Hadoop (файловая система) + разнообразные примочки для упрощения обработки данных. Тема в тренде, много всего меняется и развивается. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 09:48 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
GASTROPODA, раскройте шире, что такое "проблема Big Data" :) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 12:18 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANA, Понимаю, что у многих на сейчас такой проблемы нет. Но это не значит, что она не появится в будущем. Пока у нас многие данные проще спустить в утиль, т.к. они не приновят профита. Но на западе из этих данных научились выжимать деньги, соответственно, появилась ниша для Big Data. Если по сути, то некоторым уже нужно что-то делать с этим: "за 1 минуту интернета появляется 11 тыс. записей на Linkedin и 278 тыс. записей на Twitter". Первый подход - спускать все на /dev/null. Второй подход - пытаться как-то анализировать весь этот хаос. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 12:53 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
GASTROPODAskyANA, Понимаю, что у многих на сейчас такой проблемы нет. Но это не значит, что она не появится в будущем. Пока у нас многие данные проще спустить в утиль, т.к. они не приновят профита. Но на западе из этих данных научились выжимать деньги, соответственно, появилась ниша для Big Data. Если по сути, то некоторым уже нужно что-то делать с этим: "за 1 минуту интернета появляется 11 тыс. записей на Linkedin и 278 тыс. записей на Twitter". Первый подход - спускать все на /dev/null. Второй подход - пытаться как-то анализировать весь этот хаос. Вот у нас такая проблема началась. Стали использовать вертику. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 13:04 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
a_voronin, Если информация не секретна, опишите в двух словах о преимуществах данного решения. Вертика лицензируется потерабайтно. Сколько терабайт данных в вашем проекте уже есть и сколько прогнозируется? Какие преимущества RDBMS вы использовали для обработки неструктурированых данных? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 13:29 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
GASTROPODA, дак Вы суть проблемы описать можете, или нет? Всё вокруг да около ходите :) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 14:55 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANA, Описал тремя постами выше. Чем обработать большие объемы неструктурированных данных дешево? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 15:16 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
GASTROPODAКакие преимущества RDBMS вы использовали для обработки неструктурированых данных? дайте угадаю - структурируют и обрабатывают!!!! ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 15:49 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ivan Durak, Т.е. возят картошку на мерседесе? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 15:52 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
GASTROPODAskyANA, Описал тремя постами выше. Чем обработать большие объемы неструктурированных данных дешево?А зачем их вообще обрабатывать? Откуда они вдруг берутся большие? :) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 16:57 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
a_voroninGASTROPODAskyANA, Понимаю, что у многих на сейчас такой проблемы нет. Но это не значит, что она не появится в будущем. Пока у нас многие данные проще спустить в утиль, т.к. они не приновят профита. Но на западе из этих данных научились выжимать деньги, соответственно, появилась ниша для Big Data. Если по сути, то некоторым уже нужно что-то делать с этим: "за 1 минуту интернета появляется 11 тыс. записей на Linkedin и 278 тыс. записей на Twitter". Первый подход - спускать все на /dev/null. Второй подход - пытаться как-то анализировать весь этот хаос. Вот у нас такая проблема началась. Стали использовать вертику. А я еще под вертику положу хадуп ) Это вообще моя мечта хадуп+вертика+ssas+эксель ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 18:01 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллka_voroninпропущено... Вот у нас такая проблема началась. Стали использовать вертику. А я еще под вертику положу хадуп ) Это вообще моя мечта хадуп+вертика+ssas+эксель Я пытаюсь сейчас сделать "вертика+ssas+эксель" ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2015, 18:38 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллka_voroninпропущено... Вот у нас такая проблема началась. Стали использовать вертику. А я еще под вертику положу хадуп ) Это вообще моя мечта хадуп+вертика+ssas+эксель ну замени вертику на гринплам - и твоя шутка перестанет быть шуткой. http://pivotal.io/big-data/pivotal-hawq авторWorld’s Most Advanced Enterprise SQL on Hadoop Analytic Engine Leverage advanced analytics for your data in Apache Hadoop using a massively-parallel processing SQL engine ... |
|||
:
Нравится:
Не нравится:
|
|||
23.09.2015, 09:08 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ivan Durak, FYI ... Pivotal HD – HAWQ is based on Greenplum Database. - HAWQ SQL access to Hadoop data (including HBase) is done via the Greenplum Database External Table feature Part of what is now called PXF – Pivotal Extension Framework. - HAWQ uses its own internal proprietary metadata Does not use Apache Hadoop Hive Metadata Catalog (HCatalog) PS: BigInsights with BigSQL - http://www.ibm.com/developerworks/library/bd-bigsql/ Kind regards, Vadim. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.09.2015, 10:17 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
a_voroninкириллkпропущено... А я еще под вертику положу хадуп ) Это вообще моя мечта хадуп+вертика+ssas+эксель Я пытаюсь сейчас сделать "вертика+ssas+эксель" А как решили проблему разных операционных систем? ssas винда вертика линух ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2015, 15:00 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллka_voroninпропущено... Я пытаюсь сейчас сделать "вертика+ssas+эксель" А как решили проблему разных операционных систем? ssas винда вертика линух а что такое "проблема разных операционных систем"? И зачем её решать? Поставили на винду последний драйвер вертики и законнектились. Provider=VerticaOLEDB.1;Data Source=...;Persist Security Info=True;Password=**********;User ID=olap_user;Locale Identifier=1033;Initial Catalog=olap;Port=5433 ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2015, 15:21 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Cloudera предложила установить следующие компоненты: Impala - which you will use for interactive query Apache Hive - which you will use for structure storage (i.e. tables in the Hive metastore) Hue - which you will use for end user query access HDFS - which you will use for distributed data storage YARN - processing framework used by Hive (includes MR2) HDFS - понятно, чтобы все хранить а чем отличаются: Impala - which you will use for interactive query Apache Hive - which you will use for structure storage (i.e. tables in the Hive metastore) Hue - which you will use for end user query access Как я понимаю запросы к hdfs надо писать на Apache Hive ... |
|||
:
Нравится:
Не нравится:
|
|||
03.12.2015, 14:52 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Чем отличаются если коротко: Impala - собственная коммерческая разработка Cloudera, in-memory SQL-engine on Hadoop, вроде самая быстрая, погуглите на тему SQL-engine on Hadoop, найдете сравнения. Аналоги от других вендоров: Spark-SQL, Drill, Apache что-то там (пока в инкубаторе). Использовать в качестве драйвера для BI систем с минимальной задержкой. Apache Hive - это НЕ in-memory (на основе batch заданий MapReduce over HDFS, т.е. файловые операции ввода-вывода) SQL (HiveQL) engine on Hadoop. Для BI не подходит, т.к. высока задержка, но может лопатить петабайты, в основном для примитивного ETL или наполнения DHW из неструктурированных данных из Hadoop. Существуют оптимизации по скорости: Hive on Tez, Hive on Spark, но все равно до in-memory по скорости далеко, хотя кому-то хватит. Hue - примитивный WEB-интерфейс для написания запросов к Impala и Hive. ... |
|||
:
Нравится:
Не нравится:
|
|||
03.12.2015, 15:21 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ВжикЧем отличаются если коротко: Impala - собственная коммерческая разработка Cloudera, in-memory SQL-engine on Hadoop, вроде самая быстрая, погуглите на тему SQL-engine on Hadoop, найдете сравнения. Аналоги от других вендоров: Spark-SQL, Drill, Apache что-то там (пока в инкубаторе). Использовать в качестве драйвера для BI систем с минимальной задержкой. Impala не in-memory (но map-reduce не использует за счет чего и правда быстрее). Да и не самый быстрый и технологичый (нет поддержки sql-99). ... |
|||
:
Нравится:
Не нравится:
|
|||
03.12.2015, 23:49 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
loki1984Impala не in-memory (но map-reduce не использует за счет чего и правда быстрее). Да и не самый быстрый и технологичый (нет поддержки sql-99). А что тогда быстрее и технологичнее импалы? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 11:00 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
haXbat, IBM big sql Pivotal hawq Написаны на c++. Айбиэмовский движок умеет подтягивать данные из сторонних субд и join'ить их с данными в hadoop. В big sql поддержка sql 2011, hawq sql 2008, если не ошибаюсь. Ни импала ни эти движки не являются in-memory, не путайте. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.12.2015, 19:03 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
loki1984haXbat, IBM big sql Pivotal hawq Написаны на c++. Айбиэмовский движок умеет подтягивать данные из сторонних субд и join'ить их с данными в hadoop. В big sql поддержка sql 2011, hawq sql 2008, если не ошибаюсь. Ни импала ни эти движки не являются in-memory, не путайте. а спарк? ... |
|||
:
Нравится:
Не нравится:
|
|||
07.12.2015, 10:15 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
haXbatloki1984Impala не in-memory (но map-reduce не использует за счет чего и правда быстрее). Да и не самый быстрый и технологичый (нет поддержки sql-99). А что тогда быстрее и технологичнее импалы? Teradata. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2015, 04:58 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ApexhaXbatпропущено... А что тогда быстрее и технологичнее импалы? Teradata. терадате поплохеет сильно в следующие несколько лет. Купит их кто-нибудь и распилит. Маркетинговые приложение они уже продают (а может и закрывают). ... |
|||
:
Нравится:
Не нравится:
|
|||
14.12.2015, 22:33 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
loki1984Apexпропущено... Teradata. терадате поплохеет сильно в следующие несколько лет. Купит их кто-нибудь и распилит. Маркетинговые приложение они уже продают (а может и закрывают). Какое это отношение имеет к тому, что она сильно "быстрее и технологичнее" импалы, как выразился вопрошающий? ... |
|||
:
Нравится:
Не нравится:
|
|||
14.12.2015, 22:54 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Apexloki1984пропущено... терадате поплохеет сильно в следующие несколько лет. Купит их кто-нибудь и распилит. Маркетинговые приложение они уже продают (а может и закрывают). Какое это отношение имеет к тому, что она сильно "быстрее и технологичнее" импалы, как выразился вопрошающий? Такое, что все течет и меняется. Может года через 3 или 5 терадата перестанет быть технологичнее. Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее... ... |
|||
:
Нравится:
Не нравится:
|
|||
14.12.2015, 23:16 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
loki1984Такое, что все течет и меняется. Может года через 3 или 5 терадата перестанет быть технологичнее. Ну я же не отвечал на вопрос о том, что может быть через 3-5 лет. loki1984Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее... И чем же предпочтительнее для этих сценариев? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.12.2015, 03:39 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
loki1984Apexпропущено... Какое это отношение имеет к тому, что она сильно "быстрее и технологичнее" импалы, как выразился вопрошающий? Такое, что все течет и меняется. Может года через 3 или 5 терадата перестанет быть технологичнее. Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее... террадата мастодонт, но время мастодонтов прошло. Вот гринплам, молодой да ранний конкурент террадаты - бац и уже стал опен сорс!! Во этот поворот! Ставлю свой золотой зуб, что через 5 лет он обойдет террадату по популярности. Опенсорсы рулят! ... |
|||
:
Нравится:
Не нравится:
|
|||
16.12.2015, 09:09 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ivan Durakloki1984пропущено... Такое, что все течет и меняется. Может года через 3 или 5 терадата перестанет быть технологичнее. Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее... террадата мастодонт, но время мастодонтов прошло. Вот гринплам, молодой да ранний конкурент террадаты - бац и уже стал опен сорс!! Во этот поворот! Ставлю свой золотой зуб, что через 5 лет он обойдет террадату по популярности. Опенсорсы рулят! На примере пентахо видно. что без какого-то четкого плана технология или не развивается или не так как надо ... |
|||
:
Нравится:
Не нравится:
|
|||
16.12.2015, 17:44 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ivan Durakloki1984пропущено... Такое, что все течет и меняется. Может года через 3 или 5 терадата перестанет быть технологичнее. Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее... террадата мастодонт, но время мастодонтов прошло. Вот гринплам, молодой да ранний конкурент террадаты - бац и уже стал опен сорс!! Во этот поворот! Ставлю свой золотой зуб, что через 5 лет он обойдет террадату по популярности. Опенсорсы рулят!Сама EMC после 2013 года выпала из лидеров в области хранилищ данных. В последние 2 года она в нижнем правом квадранте гартнера. Но, тем не менее, ход очень интересный. Особенно в свете импортозаместительства. Вот только, мне кажется, скоро какая-нибудь компашка "Рога&Копыта" в России форкнет Greenplum и станет он истинно православным, трижды победоносным российским продуктом. Ну а EMC кукиш достанется. Время покажет. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.12.2015, 23:55 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Alexander RyndinСама EMC после 2013 года выпала из лидеров в области хранилищ данных. В последние 2 года она в нижнем правом квадранте гартнера. Но, тем не менее, ход очень интересный. Особенно в свете импортозаместительства. Вот только, мне кажется, скоро какая-нибудь компашка "Рога&Копыта" в России форкнет Greenplum и станет он истинно православным, трижды победоносным российским продуктом. Ну а EMC кукиш достанется. Время покажет. и всё равно это будет лучше чем exadata и точки зрения performance и с точки зрения цены. Надежность будет хуже, тут не поспоришь. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.12.2015, 13:31 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
query_monsterAlexander RyndinСама EMC после 2013 года выпала из лидеров в области хранилищ данных. В последние 2 года она в нижнем правом квадранте гартнера. Но, тем не менее, ход очень интересный. Особенно в свете импортозаместительства. Вот только, мне кажется, скоро какая-нибудь компашка "Рога&Копыта" в России форкнет Greenplum и станет он истинно православным, трижды победоносным российским продуктом. Ну а EMC кукиш достанется. Время покажет. и всё равно это будет лучше чем exadata и точки зрения performance и с точки зрения цены. Надежность будет хуже, тут не поспоришь.Не стал бы я первой части фразы расписываться, как впрочем и во второй. Цену нужно считать, конечно, с точки зрения стоимости владения, а не просто цена железа плюс цена софта. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.12.2015, 14:23 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Alexander Ryndinquery_monsterпропущено... и всё равно это будет лучше чем exadata и точки зрения performance и с точки зрения цены. Надежность будет хуже, тут не поспоришь.Не стал бы я первой части фразы расписываться, как впрочем и во второй. Цену нужно считать, конечно, с точки зрения стоимости владения, а не просто цена железа плюс цена софта. конечно не стал бы, ты ж сотрудник оракла, и тебе платят, чтобы ты рекламировал именно его ... |
|||
:
Нравится:
Не нравится:
|
|||
18.12.2015, 22:24 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
loki1984Alexander Ryndinпропущено... Не стал бы я первой части фразы расписываться, как впрочем и во второй. Цену нужно считать, конечно, с точки зрения стоимости владения, а не просто цена железа плюс цена софта. конечно не стал бы, ты ж сотрудник оракла, и тебе платят, чтобы ты рекламировал именно егоне поверите, но я бы и за exadata не стал бы расписывать. Как впрочем и за любой другой продукт. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.12.2015, 22:39 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Саша, вот ты мимоходом в соседней теме обозвал Кевина Клоссона проституткой. А можешь пояснить, за что? ... |
|||
:
Нравится:
Не нравится:
|
|||
18.12.2015, 23:08 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
А тут оказывается - кипит жизнь))))) ... |
|||
:
Нравится:
Не нравится:
|
|||
18.12.2015, 23:13 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
loki1984, Можете все-таки ответить на мой вопрос, если будет время, конечно Apexloki1984Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее... И чем же предпочтительнее для этих сценариев? ... |
|||
:
Нравится:
Не нравится:
|
|||
18.12.2015, 23:14 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ApexСаша, вот ты мимоходом в соседней теме обозвал Кевина Клоссона проституткой. А можешь пояснить, за что?Ну мне не очень понятно, когда человек много лет продвигает в своем блоге продукт X, является его архитектором, а потом мгновенное "прозревает", перейдя в другую компанию, и после этого даже не столько рекламирует продукт Y, сколько поливает грязью продукт X. Я бы понял, если бы он перешел и начал продвигать продукт Y, начал вкладываться в его развитие. Но это не тот случай. Какая-то за этим стоит темная история - девку у него увели, с позором выперли, миллион долларов заплатили или что-то еще. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.12.2015, 00:21 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Alexander RyndinApexСаша, вот ты мимоходом в соседней теме обозвал Кевина Клоссона проституткой. А можешь пояснить, за что?Ну мне не очень понятно, когда человек много лет продвигает в своем блоге продукт X, является его архитектором, а потом мгновенное "прозревает", перейдя в другую компанию, и после этого даже не столько рекламирует продукт Y, сколько поливает грязью продукт X. Я бы понял, если бы он перешел и начал продвигать продукт Y, начал вкладываться в его развитие. Но это не тот случай. Какая-то за этим стоит темная история - девку у него увели, с позором выперли, миллион долларов заплатили или что-то еще. А может быть он просто стал свободен от юридических обязятельств не говорить о недостатках продукта Х? Тем более, что ничего нового, например для меня, да и всех, кто не является фанатиком Экзадаты, он не рассказал. А недовольные ораклофилы почему-то так и не предоставили доказательств его неправоты или вранья. То ли квалификации не хватило, то ли опровергать нечего, т.к. описанные недостатки действительно есть. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.12.2015, 03:59 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ApexAlexander Ryndinпропущено... Ну мне не очень понятно, когда человек много лет продвигает в своем блоге продукт X, является его архитектором, а потом мгновенное "прозревает", перейдя в другую компанию, и после этого даже не столько рекламирует продукт Y, сколько поливает грязью продукт X. Я бы понял, если бы он перешел и начал продвигать продукт Y, начал вкладываться в его развитие. Но это не тот случай. Какая-то за этим стоит темная история - девку у него увели, с позором выперли, миллион долларов заплатили или что-то еще. А может быть он просто стал свободен от юридических обязятельств не говорить о недостатках продукта Х? Тем более, что ничего нового, например для меня, да и всех, кто не является фанатиком Экзадаты, он не рассказал. А недовольные ораклофилы почему-то так и не предоставили доказательств его неправоты или вранья. То ли квалификации не хватило, то ли опровергать нечего, т.к. описанные недостатки действительно есть.Недостатки есть у каждого продукта, если копнуть поглубже, чем маркетинговые материалы. Недостатков нет только у сферических коней. По поводу Клоссона - ему много кто отвечал в его блоге, кого-то он вообще модерирует. Но я не об этом. Я говорю, что мне сложно представить, что вот я занимаюсь каким-то решением (я не знаю точно кем он был в oracle, но называет себя performance architect of Exadata), а потом ухожу и начинаю лить на это решение помои. Этому должна быть какая-то веская причина. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.12.2015, 05:25 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Apexloki1984, Можете все-таки ответить на мой вопрос, если будет время, конечно Apexпропущено... И чем же предпочтительнее для этих сценариев? гибкостью, ценой за терабайт, масштабированием (подробно искать лень, но вроде teradata в облаке максимум до 20ТБ пока что). Opex vs Capex и.т.п. Вообще это скорее вы могли бы объяснить чем лучше. Может "изнутри" все по-другому. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.12.2015, 13:27 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Alexander RyndinЯ говорю, что мне сложно представить, что вот я занимаюсь каким-то решением (я не знаю точно кем он был в oracle, но называет себя performance architect of Exadata), а потом ухожу и начинаю лить на это решение помои. Этому должна быть какая-то веская причина. Сначала он спроектировал Экзадату, потом понял, что то, что он спроектировал, это дерьмо, потом понял, что исправить это не по его способностям, поэтому ушёл пока не выперли. По-моему, это вполне логичная цепочка. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.12.2015, 14:50 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovAlexander RyndinЯ говорю, что мне сложно представить, что вот я занимаюсь каким-то решением (я не знаю точно кем он был в oracle, но называет себя performance architect of Exadata), а потом ухожу и начинаю лить на это решение помои. Этому должна быть какая-то веская причина. Сначала он спроектировал Экзадату, потом понял, что то, что он спроектировал, это дерьмо, потом понял, что исправить это не по его способностям, поэтому ушёл пока не выперли. По-моему, это вполне логичная цепочка. По поводу "дерьмо" я точно не согласен. Это я говорю как человек поработавший с ней. С OLTP задачами я мало на ней сталкивался, но на DWH задачах это очень достойное решение. Но только смотреть это решение нужно на реальных, а не синтетических задачах. По поводу Клоссона. Вряд ли он сильно приложил руку к созданию Exadata. Все-таки поздновато он пришел в Oracle. А вот кто серьезно вложился - те сильно не пиарятся. Но патентов за ними очень много . Клоссон уходил из Oracle в подразделение Greenplum, теперь вот уже во Flash-подразделении. Похоже и там он никому не нужен. Все-таки заниматься flash-массивами это гораздо менее инженерная работа. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.12.2015, 17:42 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
loki1984, Кажется я понял о чем вы. Для начала стандартный дисклеймер: Все, о чем я пишу является моим личным мнением и может не совпадать с позицией компании Amazon. Теперь к сути. Если вы говорите, что Redshift более подходит для облака, чем Teradata, то можно ли сказать то же самое про другие СУБД? Например, можно ли сказать, что Redshift больше подходит для облака, чем Oracle, MySQL, MSSQL или PostgreSQL? Очевидно данное утвержденеи неверно, т.к. все они существуют в том же самом облаке , что и Redshift. Говоря о Redshift, вы, похоже, смешиваете два, в общем случае независимых элемента: сама СУБД и облачная инфраструктура вокруг нее. Сама по себе СУБД Redshift не более облачна, чем все те СУБД, которые я перечислил выше. По-сути это всего лишь Paracel + расширенные возможности команды COPY, позвоялющие выгружать\загружать данные с\на S3,EMRFS (она же HDFS), DDB и пожалуй все. Гибкость, т.е. возможность за минуту создать кластер нужной конфигурации, быстро загрузить данные с S3, погонять запросы столько сколько нужно, сделать бэкап и удалить кластер до следующего раза - это все возможности облачной инфраструктуры, причем именно Амазоновской инфраструктуры, а не какой-то другой. В любом другом облаке Paracel не даст вам никаких преимуществ пока не будет полноценно интегрирован в него, да и то, сегодня конкурентов AWS по количеству сервисов и многому другому нет. Цена за террабайт - это вопрос ценообразования и финансовых возможностей поставщика. Весь AWS - это меньше 10-то части бизнеса Амазона, он может позволить себе очень низкую маржинальность. Масштабируемость - Redshift более чувствителен к усложнению запросов и\или количества одновременно выполняемых запросов, в этом смысле Teradata масштабируется гораздо лучше. Ограничение масштабируемости Teradata в облаке связанно именно с недоразвитостью их облачной инфраструктуры, а не какими-то ограничениями самой СУБД Teradata. Т.е в данном случае преимуществом опять же является первоклассная архитектура и инфраструктура Амазоновского облака. Итого, все плюсы Redshift'a обеспечены возможностями AWS, окажись на месте Paracel например Vertica, вы бы сегодня говорили о том, что Vertica лучше подходит для облака, чем Teradata, хотя она точно так же сама по себе не более облачна, чем остальные. Технически же Teradata гораздо функциональнее и более продвинута, чем Redshift . Но техническая привлекательность не означает привлекательность рыночную, когда за десятую долю стоимости кластера Teradata можно построить в десять раз больший кластер Redshift , причем сделать это буквально за минуты, а не за месяцы, как это обычно бывает с традиционными on-premise software, то конечно же все технические плюсы Teradata меркнут перед экономией средств,которые можно получить на Redshift. Но это уже другой вопрос, не тот, который тут обсуждался изначально. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.12.2015, 00:16 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Alexander RyndinВсе-таки заниматься flash-массивами это гораздо менее инженерная работа. Это ты нам как инженер по flash-массивам с многолетним стажем говоришь? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.12.2015, 00:43 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ApexAlexander RyndinВсе-таки заниматься flash-массивами это гораздо менее инженерная работа. Это ты нам как инженер по flash-массивам с многолетним стажем говоришь?Это IMHO. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.12.2015, 01:39 |
|
|
start [/forum/topic.php?all=1&fid=48&tid=1856779]: |
0ms |
get settings: |
7ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
37ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
186ms |
get tp. blocked users: |
1ms |
others: | 9ms |
total: | 272ms |
0 / 0 |