powered by simpleCommunicator - 2.0.54     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как двигаться в сторону BigData
149 сообщений из 149, показаны все 6 страниц
Как двигаться в сторону BigData
    #38765272
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хочу задать вопрос, как начать двигаться в направлении BigData.

Я программист со стажем и уже не столь молод. Сейчас специализируюсь на SQL Server / OLAP, работаю в области BI в крупной онлайн торговой площадке. Имею также некоторый опыт с Oracle. В прошлом имел дело с C# .NET , до этого с C++ и Turbo Pascal.

Чувствую, что необходимо прокачиваться в направлении BigData. Если ставить вопрос так: с чего начать. На что делать акцент, если я в данный момент в основном ориентирован на Microsoft. Какие технологии стоит рассматривать? Какие книги, мануалы стоит читать? На какие курсы сходить?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38765324
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin, если занимаетесь аналитикой, то посмотрите в сторону языка R и его применения в BigData.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38765325
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вступите в группу Big Data Developers in Moscow .
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38765453
Фотография Станислав Клевцов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANA,

опа ) весьма полезная ссылка ) Спасибо !
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38767051
Tomato
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Единственый способ двигаться к БигДата - работать с ней.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38767738
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
TomatoЕдинственый способ двигаться к БигДата - работать с ней.

да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38767757
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhTomatoЕдинственый способ двигаться к БигДата - работать с ней.

да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата.Гы. Каких таких специальных данных?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768397
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuhпропущено...


да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата.Гы. Каких таких специальных данных?

гы-гы. неких, например, которые удобнее обрабатывать не в реляцонных базах, а в каком-нибудь noSql
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768400
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhskyANAпропущено...
Гы. Каких таких специальных данных?

гы-гы. неких, например, которые удобнее обрабатывать не в реляцонных базах, а в каком-нибудь noSql

Понятно, Вы не в теме.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768421
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuhпропущено...


гы-гы. неких, например, которые удобнее обрабатывать не в реляцонных базах, а в каком-нибудь noSql

Понятно, Вы не в теме.


не в какой теме?
теме БигДата, как чего-то нового надвигающегося на нас? тогда нет.
Это ведь не какая-то революционная технология.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768489
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhskyANAпропущено...
Понятно, Вы не в теме.


не в какой теме?Нет в BigData никаких специальных данных.
Winnipuhтеме БигДата, как чего-то нового надвигающегося на нас? тогда нет.
Это ведь не какая-то революционная технология.Ну да. MapReduce реализовали в Google ещё в 2003-м.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768608
Фотография Gallemar
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
По работе пришлось столкнуться с MongoDb, очень узкозаточенная СУБД, без транзакций,без подтверждения записи,но с хорошей горизонтальной масштабируемостью. Сложно представить где её область применения, кроме веб.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768617
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GallemarСложно представить где её область применения, кроме веб.Web :)

Она для этого и создавалась, почитайте историю проекта.

P.S.: транзакции реализовали самостоятельно.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768619
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Gallemar, и как это без потверждения записи? А Write Concern ?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768621
Фотография Gallemar
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANA,оно реализовано в 2.6, сорри, про более ранние версии говорил:)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768624
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GallemarskyANA,оно реализовано в 2.6, сорри, про более ранние версии говорил:)С чего Вы это взяли?

Write Concern давно уже есть (я с MongoDB познакомился в январе 2012, тогда уже был).
В ноябре 2012 были внесены изменения в поведение по умолчанию: Default Write Concern Change .

В 2.6 добавили изменения в виде "new write-operation protocol".
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768914
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuhпропущено...



не в какой теме? Нет в BigData никаких специальных данных.
Winnipuhтеме БигДата, как чего-то нового надвигающегося на нас? тогда нет.
Это ведь не какая-то революционная технология.Ну да. MapReduce реализовали в Google ещё в 2003-м.

нет, конечно, данные - они и в Африке данные.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38768972
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhskyANAпропущено...
Нет в BigData никаких специальных данных.
пропущено...
Ну да. MapReduce реализовали в Google ещё в 2003-м.

нет, конечно, данные - они и в Африке данные.

Как легко Вы меняете свою точку зрения.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769057
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuhпропущено...


нет, конечно, данные - они и в Африке данные.

Как легко Вы меняете свою точку зрения.

ага... давайте прицепимся к слову и будем развивать дискуссию...в бигдата никаких даных вообще нет, это же всего лишь название. Данные есть в конкретных проектах, реализациях.

Специфика обработки и хранения данных, если вам так удобнее ;-)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769130
Очень лысый
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
По большому счёту, BigData это скорее "проблема", которая связана с ростом объёмов данных, гуляющих по разного рода системам. Логи там всякие, транзакции, информация с датчиков и физических устройств. Можно её херить, а можно куда-то складывать и обрабатывать по мере надобности. И данные эти не обязательно неструктурированные. Просто их зело много.
Хранить их в традиционной РСУБД на дорогих хранилках это сильно дорого, и обрабатывать медленно, а чтобы обрабатывать быстрее, надо индексы и всяку прочую фигню создавать, что ещё более увеличивает объёмы.
Посему юзаем Hadoop ибо позволяет дёшево хранить и в приемлемое время процессить. И безболезненно наращивать объём + производительность добавлением нод. Т.е. имеем одно из решений проблемы BigData.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769141
Очень лысый
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Т.о. NoSQL не обязательно BigData, а BigData не обязательно NoSQL. Тот же Hive вполне себе поддерживает некое подобие SQL, хотя РСУБД, конечно, никак не является.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769161
Очень лысый
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Что касаемо вопроса топикастера, то настраиваем тестовый кластер на виртуалках, заливаем данные в hdfs, и изучаем стек продуктов hadoop. А там будет понятно, надо оно Вам или нет.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769216
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhskyANAпропущено...


Как легко Вы меняете свою точку зрения.

ага... давайте прицепимся к слову и будем развивать дискуссию...в бигдата никаких даных вообще нет, это же всего лишь название. Данные есть в конкретных проектах, реализациях.

Специфика обработки и хранения данных, если вам так удобнее ;-)Мне лично всё равно, что Вы в теме плаваете :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769230
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Очень лысыйТ.о. NoSQL не обязательно BigData, а BigData не обязательно NoSQL. Тот же Hive вполне себе поддерживает некое подобие SQL, хотя РСУБД, конечно, никак не является.Движки для Hadoop сейчас поддерживают SQL-92 (где частично, где полностью). Не все, но если надо SQL, то бери и пользуйся.
IBM так вовсю рекламирует. Ну а фигли, у них внутри DB2 движок.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769235
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuhпропущено...


ага... давайте прицепимся к слову и будем развивать дискуссию...в бигдата никаких даных вообще нет, это же всего лишь название. Данные есть в конкретных проектах, реализациях.

Специфика обработки и хранения данных, если вам так удобнее ;-)Мне лично всё равно, что Вы в теме плаваете :)

Да какая там тема, БигДата - по сути всего лишь слова, рассуждения и не более того.
Скажем честно: там негде плавать.
Но для важности некоторые юзеры делают вид, что они "в теме", и скоро не будет ни реляционных, никаких баз, а сплошной БигДата.
А что это так никто и не может сказать четко.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769236
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Очень лысыйЧто касаемо вопроса топикастера, то настраиваем тестовый кластер на виртуалках, заливаем данные в hdfs, и изучаем стек продуктов hadoop. А там будет понятно, надо оно Вам или нет.Проблема в том, что ТС ориентирован на Microsoft. И только у IMB вроде как есть какая-то поддержка .Net, да и то в силу того, что внутри DB2, а под неё уже сто лет в обед как есть провайдер.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769239
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhskyANAпропущено...
Мне лично всё равно, что Вы в теме плаваете :)

Да какая там тема, БигДата - по сути всего лишь слова, рассуждения и не более того.
Скажем честно: там негде плавать.
Но для важности некоторые юзеры делают вид, что они "в теме", и скоро не будет ни реляционных, никаких баз, а сплошной БигДата.
А что это так никто и не может сказать четко.

Опять Вы фигню пишете.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769261
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuhпропущено...


Да какая там тема, БигДата - по сути всего лишь слова, рассуждения и не более того.
Скажем честно: там негде плавать.
Но для важности некоторые юзеры делают вид, что они "в теме", и скоро не будет ни реляционных, никаких баз, а сплошной БигДата.
А что это так никто и не может сказать четко.

Опять Вы фигню пишете.

а можно сначала привести четкое определение, что же такое БигДата, а потом возможно употреблять слова "фигню пишете" и пр.?
а то кроме "фигню", "плаваете", "не в теме", "гы" я так и не нашел нормального вменяемого описания.

Спасибо заранее.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769321
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BigData - это термин, описывающий большой объём постоянно растущих как структурированных, так и не структурированных данных, анализ которых полезен и для бизнеса, и для социума.

Устроит?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769335
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
К BigData относят
аналитику, построенную на Hadoop;

потоковые вычисления

анализ текстов...
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769467
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANABigData - это термин, описывающий большой объём постоянно растущих как структурированных, так и не структурированных данных, анализ которых полезен и для бизнеса, и для социума.

Устроит?

Да, как такое общее выражение, конечно. Скорее даже эмоциональное. ;-)

Ведь можно так спросить"большой" - это сколько?
Будет ли это большим завтра?
То же и об этом "анализ которых полезен и для бизнеса, и для социума"

Ну в общем вроде все понимают, что это есть, что это нужно, но я имхую, что сейчас это скорее такое "общественное движение", чем что-то конкретное.

Ведь скажем Microsoft 17 лет назад запустила terraserver, там были ого какие бигдата, и примечательно, что термина не было, а бигдата уже были. То же и гугла касается и т.д. Каждый после анализа сппецифики данных (см. начальне посты и свою критику ;-) )
реализовывал по-своему и оптимально.

(это я имхую, естественно)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769573
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhskyANABigData - это термин, описывающий большой объём постоянно растущих как структурированных, так и не структурированных данных, анализ которых полезен и для бизнеса, и для социума.

Устроит?

Да, как такое общее выражение, конечно. Скорее даже эмоциональное. ;-)

Ведь можно так спросить"большой" - это сколько?
Будет ли это большим завтра?
То же и об этом "анализ которых полезен и для бизнеса, и для социума"

Ну в общем вроде все понимают, что это есть, что это нужно, но я имхую, что сейчас это скорее такое "общественное движение", чем что-то конкретное.

Ведь скажем Microsoft 17 лет назад запустила terraserver, там были ого какие бигдата, и примечательно, что термина не было, а бигдата уже были. То же и гугла касается и т.д. Каждый после анализа сппецифики данных (см. начальне посты и свою критику ;-) )
реализовывал по-своему и оптимально.

(это я имхую, естественно)Мда...
А разработали десяток движков для Hadoop так, на общественных началах, не понятно для чего.

Вообщем начали Вы про какую-то узкую нишу и специальные данные, то есть какую-то конкретную область применения.
А закончили тем, что на самом деле никто не понимает что это и зачем нужно. Смешно, ей-богу :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769593
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Winnipuh, Вы, например, знакомы с таким понятием, как "Common conversion activities"?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769675
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuh, Вы, например, знакомы с таким понятием, как "Common conversion activities"?

Очень поверхностно, я другим занимаюсь.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38769683
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhskyANAWinnipuh, Вы, например, знакомы с таким понятием, как "Common conversion activities"?

Очень поверхностно, я другим занимаюсь.Чем?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38770120
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuhпропущено...


Очень поверхностно, я другим занимаюсь.Чем?

фигнёй всякой
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38770137
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhskyANAпропущено...
Чем?

фигнёй всякой О, мы достигли консенсуса :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38770266
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuhпропущено...


фигнёй всякой О, мы достигли консенсуса :)


э-не, это разные вещи, юзер может о себе такое заявить, а другой юзер не должен себе такое позволять, если он интеллигентный юзер


;-)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38770290
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhskyANAпропущено...
О, мы достигли консенсуса :)


э-не, это разные вещи, юзер может о себе такое заявить, а другой юзер не должен себе такое позволять, если он интеллигентный юзер


;-)Дак я в последнем предложении вполне интеллигентно выразился
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38782539
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хотелось бы узнать у автора, удалось ли куда продвинуться?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38782543
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkХотелось бы узнать у автора, удалось ли куда продвинуться?

Меня больше волнует проблема не хранения, а доступа к данным.

т.к. сейчас единственный реальный инструмент, это олап.

Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38782841
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллk, и что конкретно Вас интересует? Поможет-ли MapReduce?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38783906
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkкириллkХотелось бы узнать у автора, удалось ли куда продвинуться?

Меня больше волнует проблема не хранения, а доступа к данным.

т.к. сейчас единственный реальный инструмент, это олап.

Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно.
in-memory кубы на подходе
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38784019
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durakкириллkпропущено...


Меня больше волнует проблема не хранения, а доступа к данным.

т.к. сейчас единственный реальный инструмент, это олап.

Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно.
in-memory кубы на подходеХм, вроде как начало In-Memory OLAP было положено ещё в SQL Server 2008 R2.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38784099
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAкириллk, и что конкретно Вас интересует? Поможет-ли MapReduce?

Мне кажется для аналитики "хадуп" не нужен
Вообще хранить большие объемы не проблема. дисков побольше и партиционирование таблицы

Проблема в том чтобы дать пользователю инструмент крутить эти данные.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38784143
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkskyANAкириллk, и что конкретно Вас интересует? Поможет-ли MapReduce?

Мне кажется для аналитики "хадуп" не нужен
Вообще хранить большие объемы не проблема. дисков побольше и партиционирование таблицы

Проблема в том чтобы дать пользователю инструмент крутить эти данные.Вас сложно понять. "хадуп" - это одна из реализаций MapReduce.

Какой такой инструмент Вы хотите дать пользователю, на каких принципах основанный?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38784187
Очень лысый
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вообще, использовать что-либо из экосистемы Hadoop для целей традиционного BI это задача достаточно нетривиальная. Но если данные прирастают по нескольку терабайт в месяц, то ворочать их на обычных системах, даже при наличии быстрых хранилок, становится очень печально и приходится чесать репу. Ибо хадуп таки хоть неспешно, но результат возвращает и его можно дождаться. Впрочем, манагеры из IT такой ситуации рады обычно. Больше быстрых хранилок и дорогих железок вкупе с разными там ораклами - больше откатов. А на хадупах руки не нагреешь сильно. Печаль.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38784308
vassil
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
кириллk
Меня больше волнует проблема не хранения, а доступа к данным.

т.к. сейчас единственный реальный инструмент, это олап.

Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно.

Посмотрите решение от Intersystems

В частности технология DeepSee для бизнес-аналитики
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38784745
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkкириллkХотелось бы узнать у автора, удалось ли куда продвинуться?

Меня больше волнует проблема не хранения, а доступа к данным.

т.к. сейчас единственный реальный инструмент, это олап.

Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно.

Да ерунду не говорите про единственный инструмент, олап, терабайты... Вон в Фейсбуке Вертика ворочает 15 Петабайт и ничего, все довольны.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38784972
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovakaкириллkпропущено...


Меня больше волнует проблема не хранения, а доступа к данным.

т.к. сейчас единственный реальный инструмент, это олап.

Но когда куб ворочает терабайтными данными да еще по distinct мерам это очень грустно.

Да ерунду не говорите про единственный инструмент, олап, терабайты... Вон в Фейсбуке Вертика ворочает 15 Петабайт и ничего, все довольны.

Я говорю про единственный инструмент для аналитиков.
Или Вы думаете аналитики фейсбука строят матрицы и воронки в экселе подключаясь к вертике?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38785920
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллk
Я говорю про единственный инструмент для аналитиков.
Или Вы думаете аналитики фейсбука строят матрицы и воронки в экселе подключаясь к вертике?

Microstrategy там на 100+ серверах :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38786709
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovaka,
Это шутка?

Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами
Кубы, хадуп, не важно.

Но не вижу такого инструмента
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38786754
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkVovaka,
Это шутка?

Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами
Кубы, хадуп, не важно.

Но не вижу такого инструментаХм. MATLAB? Язык R? BigInsights?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38787098
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkVovaka,
Это шутка?

Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами
Кубы, хадуп, не важно.

Но не вижу такого инструмента
зачем в екселе??
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38789033
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak,

потому что бизнес любит эксель :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38789047
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38789051
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллk,

Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38789079
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkIvan Durak,

потому что бизнес любит эксель :)
мой бизнес любит sap, sas и писать sql
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38806514
Фотография Культура ПТ
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А мне на собеседе в какой-то конторе говорят: а мы хадуп поюзали, тормозной он, запилили свои ништяки прямо на c++ и теперь типа мы прёмся...
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38806992
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAкириллk,

Вы не можете нагуглить дижок , через который подключить Excel к "Кубы, хадуп, не важно"?

не все могут нагуглить дижок
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38810834
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
WinnipuhTomatoЕдинственый способ двигаться к БигДата - работать с ней.

да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата.
Статья на Хабре: IBM запускает совместные магистерские программы в области Больших Данных с ведущими российскими университетами.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38811331
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
как думаете

hadoop поднимать на red hat (linux) или windows 7?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38811478
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkкак думаете

hadoop поднимать на red hat (linux) или windows 7?Да на чём проще, на том и поднимайте.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38811479
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkкак думаете

hadoop поднимать на red hat (linux) или windows 7?

Вроде как под виндой его уже можно запускать, но зачем лишние проблемы?
hadoop и так до сих пор напоминается собранный на соплях прототип.
linux по вкусу- гораздо спокойнее будет.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38812112
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
WinnipuhTomatoЕдинственый способ двигаться к БигДата - работать с ней.

да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата.
По оценкам экспертов уже к 2015 году по всему миру будет создано 4,4 млн. рабочих мест для специалистов в области работы с Большими Данными.
Отсюда.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38813992
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAкириллkкак думаете

hadoop поднимать на red hat (linux) или windows 7?Да на чём проще, на том и поднимайте.
Я пробовал подымать его под виндой полтора года назад, в принципе работает, но это явно не для продакшина, т.к. пришлось похачить кучу скприптов в процессе.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38836140
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот, кстати, никогда не мог понять, зачем ярд строк в Excel?? что "бизнес" или аналитик поймет в этой простыне??

Даже когда ярд грузят в Qlik, я сразу говорю - неправильно поставлена задача. Только в одном случае, пожалуй - есть куча данных, а что смотреть - непонятно. Да и то, в этом случае - все данные не нужны. Не надо данные за 5 лет, чтобы понять суть задачи и агрегировать данные / разбить задачу на куски / детализировать требования, что хотим получить. В хадуп, агрегация, мат.стат / datamining (тот же Mahout)- результаты можно вертеть где угдодно. Хоти все проводки - что ж, прямой запрос к базе (или прямой, или отдельные инструменты - тут важен план запроса, чтобы базу не положить) - и извольте простыню.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38969000
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Прошло пол года в поисках компаний с хадупом
Пока безрезультатно )
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38969013
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ищи со Spark'ом и Python либо Scala
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38969099
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ВжикИщи со Spark'ом и Python либо Scala

Спасибо.

Искал по запросу HDP Developer
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994244
skyANAкириллk,

Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"?

Я месяц назад гуглил, результат был нулевой. Потом взял в руки Мондриан, пофиксил код так, чтобы он работал со Spark SQL, а также пофиксил код, отвечающий за генерацию XMLA протокола.

Получился нормальный ROLAP сервер, слушающий XMLA запросы по HTTP, к которому Ексель коннектится как к родному Analysis Services.

Вот только руки не доходят опубликовать на блоге все: и бинарники, и инструкцию, и рассказ о том, как делал. Пришлите запрос на ibobak at gmail dot com - вышлю вам бинарники, прогоните на своих данных, скажете как работает.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994509
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакskyANAкириллk,

Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"?

Я месяц назад гуглил, результат был нулевой. Потом взял в руки Мондриан, пофиксил код так, чтобы он работал со Spark SQL, а также пофиксил код, отвечающий за генерацию XMLA протокола.

Получился нормальный ROLAP сервер, слушающий XMLA запросы по HTTP, к которому Ексель коннектится как к родному Analysis Services.

Вот только руки не доходят опубликовать на блоге все: и бинарники, и инструкцию, и рассказ о том, как делал. Пришлите запрос на ibobak at gmail dot com - вышлю вам бинарники, прогоните на своих данных, скажете как работает.
И спарковского sql хватает чтобы AS делал все что нужно???
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994563
Иван, Вы наверное не поняли. MSAS вообще не применяется здесь. Есть хадуп. Есть хайв. Есть Spark SQL, работающий с данными, которые в хайве, только быстрее, чем сам хайв. На порядок быстрее.

Есть Excel, в нем обычная пайвот таблица. В екселе коннектимся к Microsoft Analysis Services, но в адресной строке пишем http://адрес-XMLA-сервера-мондриана , Ескель наивно думает что это MSAS, а на самом деле это Мондриан, работающий по тому же протоколу XMLA.

На Мондриан из екселя уходит MDX, а с Мондриана в Spark SQL уходят SQL-запросы, которые выполняются кластером по in-memory-принципу. Обо всем этом я обязательно напишу на блоге, и будет это в ближайшие дни.

----------------

Но мы увели начальную тему разговора автора топика. Предлагаю вернуться к ней.

когда автор спрашивает "Как двигаться в сторону BigData", надо поставить себе вначале вопрос: чем будете заниматься - разработкой под Big Data, или администрированием/настройкой кластеров?

Я лично вошел в Big Data около полугода назад. Еще здесь на форуме задавал вопросы о книжках, и поскольку здесь людей мало, то они светятся на первой странице.

Так вот, НЕ НАЧИНАЙТЕ ИЗУЧАТЬ С DEFINITIVE GUIDE - вы его всеравно не поймете. Первое, что надо сделать - научиться программировать на джаве, и хотя бы чуть чуть выучить линукс.

Я советую пойти по такому пути (полезно будет для тех, кто как и я пришел с мира Майкрософта, C#, .NET, MSAS, MS SQL):

возьмите для начала готовую виртуалку Hortonworks Sandbox (есть в сетке), накрутите на нее GUI - я описал как это сделать, поставьте туда InttelliJ IDEA, и сделайте для начала Hello World - добейтесь того, чтобы вы понимали где среда разработки, как в ней сделать jar-файл из вашего приложения, как этот jar запустить в консоли и что такое линуксовая консоль вообще, что такое classpath, и т.д.

Порешайте немного алгоритмических задачек например отсюда https://leetcode.com/problemset/algorithms/ чтобы понять что такое HashMap, TreeMap, HashSet, List<>, StringBuffer (? кажется? может путаю с C# StringBuilder). Разберитесь с тем, как работает сериализация - как записать на диск объект и считать его с диска. Напишите программку, читающую данные из MySQL через JDBC - поймите как работает JDBC (на сендбокс-машинке уже стоит MySQL - можете только для удобства поставить туда MySQL Workbench).

Когда разобрались с джавой, разберитесь с тем, как работает maven - без него вообще ничего делать нельзя (нет, ну конечно можно - но это "траходром" с поиском "а какая jar-ка нужна, чтобы наш mapreduce-джоб откомпилировался"). И разберитесь как он интегрируется с IntelliJ.

Когда поняли, как работает Maven, возьмите тот пример с mapreduce word count, и попытайтесь реализовать. Особенно важно найти то, на какие jar надо ссылаться, а с этим поможет maven. Запустите его вначале локально (без кластера). Потом "hadoop jar ..." - в кластере.

Самое тяжелое - это "пробить стенку", в том смысле, что вот "вижу я код word count, а как его компильнуть, как запустить, куда деплоить, что происходит" - вот это понять тяжело. Но вот когда поймете, то все пойдет как по маслу дальше.

На счет книжек. Самое противное в книжках - это отсутствие у автора понимания, что человек ничего не знает. Вот пишет автор теорию, доходим до какого-то места, и бац - текст "а давайте запустим вот этот код". А ГДЕ ЗАПУСТИМ? А КАК? И приехали - берем в руки другую книжку.... Потом начинаем понимать, что толку с книжек - как с быка молока (в плане НАУЧИТСЯ ПРАКТИЧЕСКИ ЧТО-ТО ДЕЛАТЬ, а не понять теорию). В конце концов заканчивается тем, что вы просто перебираете кучу примеров кода из блогов, делаете их дебаг в IntelliJ, и до вас начинает доходить. А вот дальше можно уже почитать и теорию - definitive guide например.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994574
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну не-знаю, не знаю...
Я конечно же за просвещение и описание как Вы это сделали...
Но путь с Java в сторону Big Data считаю несколько излишним.
Можно начать с курса на EdX "BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark" так можно познакомиться сразу с двумя зайцами - Spark и Python, заодно немного Machine Learning. Так тема хотя бы будет приоткрыта.
А дальше решать что по душе из перечисленного или их комбинаций Spark, Python, Machine Learning, туда и двигать.
Hadoop сам по себе - всего лишь распределенная файловая система для больших данных + параллельные вычисления, программирование + ETL через доп. инструменты.
По поводу Hadoop - Definitive Guide, конечно - сразу не стоит)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994583
Вжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю.

Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994802
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю.

Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит.

Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994894
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voroninИгорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю.

Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит.

Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData.

+ и мне тоже.
Для начала хотелось бы понять,а что же это "Big Data" и потом двигаться.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994960
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BigData начинается от десятков-сотен террабайт и петабайтов, когда субд уже не могут или оперативной памяти уже не достаточно.
Вот тут пример:
https://www.microstrategy.com/Strategy/media/downloads/training-events/microstrategy-world/2014-vegas/MSTR-World-Yahoo!-Taiwan.pdf?ext=.pdf
Там же и инструменты...
Но лучше не "что это такое", а чего в текущем варианте не хватает, может быть она и не нужна - BigData)))
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995137
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ВжикBigData начинается от десятков-сотен террабайт и петабайтов, когда субд уже не могут или оперативной памяти уже не достаточно.
Вот тут пример:
https://www.microstrategy.com/Strategy/media/downloads/training-events/microstrategy-world/2014-vegas/MSTR-World-Yahoo!-Taiwan.pdf?ext=.pdf
Там же и инструменты...
Но лучше не "что это такое", а чего в текущем варианте не хватает, может быть она и не нужна - BigData)))

имхую, что немножко мутно написано:

1. на сотне террабайтов "субд уже не могут"? с чего бы это?
2. "оперативной памяти уже не достаточно" - кому? сколько? и кто требует памяти? Разве SQL Server или PostgreSQL отказывался работать от недостатка памяти?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995188
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Winnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?
2. "оперативной памяти уже не достаточно" - кому? сколько? и кто требует памяти? Разве SQL Server или PostgreSQL отказывался работать от недостатка памяти?
"субд уже не могут" = медленно
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995201
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Winnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?

Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995224
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominWinnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?

Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.
вся бигдата - это хадуп. Не больше и не меньше.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995610
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominWinnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?

Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.

вроде звучит правильно, но ведь здесь "bigdata" - некое волшебное слово, за которым непонятно что стоит.
Если SQL Server (PostgreSQL и т.д.) не справляется на данном хардваре то базу можно сделать распределенной, репликации, шардинг и пр.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995643
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Репликация и шардинг - это все не о том, вы не получите MPP.
Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995647
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ВжикРепликация и шардинг - это все не о том, вы не получите MPP.
Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для
традиционной аналитики.

вот, я и пытаюсь понять что это и с чем его едят.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995781
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ВжикРепликация и шардинг - это все не о том, вы не получите MPP.
Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики.
а че, без Machine Learnin - это не бигдата!?? Вот те раз...
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995947
GVF112GVF
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ivan DurakAlexey Tominпропущено...


Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.
вся бигдата - это хадуп. Не больше и не меньше.

Это заблуждение !!!
Big Data - это не только Hadoop.
---------------------------------------------------------------------
IBM’s vision - Big Data is not just Hadoop

“There’s a belief that if you want big data, you need to go out and buy Hadoop and then you’re pretty much set. People shouldn’t get ideas about turning off their relational systems and replacing them with Hadoop…
As we start thinking about big data from the perspective of business needs, we’re realizing that Hadoop isn’t always the best tool for everything we need to do, and that using the wrong tool can sometimes be painful.”


Ken Rudin
Head of Analytics at Facebook



=> Hadoop will be an important part of information architectures for years to come, but it will not take over the world or even replace most traditional technologies
---------------------------------------------------------------------

Kind regards,
Vadim.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39010776
a_voroninИгорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю.

Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит.

Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData.

Для начала начните с того, что поднимите для себя сам хадуп - здесь моя статья
http://ihorbobak.com/index.php/2015/05/06/installing-hadoop-using-ambari-server/
и среды разработки
http://ihorbobak.com/index.php/2015/06/23/installing-development-tools-on-hadoop/
на отдельной виртуалке.

Выучите java, разберитесь хорошо с maven, и реализуйте на IntelliJ IDEA всем известный пример задачи с wordcount
http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html
но вот только не пытайтесь этот код компилировать тем способом, что описано в тьюториале, потому что это маразм. Лучше всего работать в IntelliJ с помощью maven, используя зависимость

<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.0</version>
</dependency>


Но для начала скачайте Hadoop_Fundamentals_LiveLessons_2nd_Edition (есть на пиратских источниках это видео - здесь не имею права приводить), поймите что есть что, поймите как файлы в HDFS запихивать, как их оттуда вынимать и т.д. - базовые вещи. А то даже для реализации wordcount Вам придется файл в HDFS положить как-то.

Потом поставьте перед собою более сложную задачу. Я когда учился, поставил перед собою задачу сделать анализ логов веб-сервера на предмет того, из какой страны сколько раз каждый URL запрашивали в каком месяце. Логи взял у друга с его веб-сервера (да этого добра можно найти валом), потом здесь http://www.ip2nation.com/ вытянул БД на mysql, которая ставит в соответствие диапазон IP адресов стране, из этого добра создал zip файл, содержащий отсортированный список, класс, который по IP адресу отдает страну, этот zip файл через distributed cache пропихнул из кода драйвера (перед тем как делать join на уровне mapper-а).
Пришлось почитать книжку hadoop mapreduce cookbook и т.д.

Вы себе можете и другую задачу поставить, только желательно посложнее чем wordcount.

Тут важно следующее: попробуйте хоть что-то сделать. Вот когда поймете как работает Hadoop.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39010781
Да, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать, потому что это извращенство. Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39011161
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакДа, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать , потому что это извращенство . Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает.

ну а кроме эмоций где же аргументы?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39011276
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhИгорь БобакДа, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать , потому что это извращенство . Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает.

ну а кроме эмоций где же аргументы?

:)
Версия 1 хадупа в общем и целом не работала под windows.
Вторая- потребует некоторой доработки напильником .
При этом CDH, который стоит рассматривать, про windows не знает .
В целом- оно действительно, не очень, на windows ставить. Не то, чтобы извращение, но могут возникнуть проблемы, по которым никто ничего не подскажет- типа в Микрософт пишите :D

Про "не убунту"- это пусть Бобак рассказывает, что ему приснилось- на убунте LTE очень даже кластеры работают, да и вообще- разница не стоит того, чтобы менять убунту на центос. Вот если поднимать виртуалку- тут да, лучше ставить там то же, что и на серваках.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39011442
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вообщем поиграл я с hortonworks

сделал табличку в 1 000 000 000 записей. скормил это hortonworks
Он подавился.

вот думаю что делать дальше )
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39011445
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллk,

Как я понимаю без знаний по java к hadoop лучше не подходить )
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39011767
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkВообщем поиграл я с hortonworks

сделал табличку в 1 000 000 000 записей. скормил это hortonworks
Он подавился.

вот думаю что делать дальше )Звучит как "скормил миллиард записей Ubuntu. Он подавился". И о чем это говорит?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39015825
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Birkhoff,

я про этот продукт
http://hortonworks.com/products/hortonworks-sandbox
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39016234
кириллkсделал табличку в 1 000 000 000 записей. скормил это hortonworks

вскормил это куда? в sandbox?

вскармливал каким механизмом? sqoop? инструкцию прочел о распараллеливании (параметр -m) ?


кириллkОн подавился.
вот думаю что делать дальше )

он подавился выполняя что? втягивание этих данных? или подавился на этапе последующей выборки?

хард какой? скорость мерял кто-нибудь?

короче, объясните толком как делали, какое железо, откуда данные тянули, а дальше будем думать.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39051636
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь Бобаккириллkсделал табличку в 1 000 000 000 записей. скормил это hortonworks

вскормил это куда? в sandbox?

вскармливал каким механизмом? sqoop? инструкцию прочел о распараллеливании (параметр -m) ?


кириллkОн подавился.
вот думаю что делать дальше )

он подавился выполняя что? втягивание этих данных? или подавился на этапе последующей выборки?

хард какой? скорость мерял кто-нибудь?

короче, объясните толком как делали, какое железо, откуда данные тянули, а дальше будем думать.


Рассказываю:

в хортоне есть 15 гб свободного места.
Я сгенерировал простой тестовый файл с 2 строками: "дата" , "значение".
положил это на жесткий диск в в хортоне
далее через интерфейс хортона, выбрал этот файл и нажал "обработать"
и усе. крутисля 2 суток пока я его не остановил
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39051650
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
[quot Игорь Бобак][quot a_voronin]пропущено...

Для начала начните с того, что поднимите для себя сам хадуп - здесь моя статья
http://ihorbobak.com/index.php/2015/05/06/installing-hadoop-using-ambari-server/
и среды разработки
http://ihorbobak.com/index.php/2015/06/23/installing-development-tools-on-hadoop/
на отдельной виртуалке.


Почитал я статьи )
В целом вообще понятно.
1. начала настроить Network Settings

Enable Networks
Disabling IP Version 6
Disabling Firewall
Disable the THP
Enable NTPD

2. Далее установить веб морду ambari
и в ней уже настраивать hadoop

Я попробую на днях установить следуя вашей инструкии. Пока у меня голая система centos.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39056909
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Т.е. ты залил на виртуалку с хортоном 15 гигов и он подавился?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39056951
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexТ.е. ты залил на виртуалку с хортоном 15 гигов и он подавился?
как в анекдоте: "выпил 3 бутылки водки, закусил печенькой - что-то мне плохо. Наверное отравился печенькой"
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39057052
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan DurakApexТ.е. ты залил на виртуалку с хортоном 15 гигов и он подавился?
как в анекдоте: "выпил 3 бутылки водки, закусил печенькой - что-то мне плохо. Наверное отравился печенькой"

А что не так? я хотел его протестировать на большом объеме.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39057878
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkIvan Durakпропущено...

как в анекдоте: "выпил 3 бутылки водки, закусил печенькой - что-то мне плохо. Наверное отравился печенькой"

А что не так? я хотел его протестировать на большом объеме.
Действительно, что может быть не так с нагрузочным тестированием на виртуальной машине...
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058037
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Пару слов про Big Data.
Пож этими словами подразумавают:
1. Маркетинговое понятие. Когда очень МНОГО данных (счет идет на петабайты или сотни терабайтов), как правило НЕСТРУКТУРИРОВАННЫХ, и с ними нужно что-то делать.
2. Железка от Оракл которая называется BigData.


Решить проблему Big Data как правило пытаются через много дешевого железа + Hadoop (файловая система) + разнообразные примочки для упрощения обработки данных.

Тема в тренде, много всего меняется и развивается.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058193
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODA, раскройте шире, что такое "проблема Big Data" :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058243
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
skyANA,

Понимаю, что у многих на сейчас такой проблемы нет. Но это не значит, что она не появится в будущем. Пока у нас многие данные проще спустить в утиль, т.к. они не приновят профита. Но на западе из этих данных научились выжимать деньги, соответственно, появилась ниша для Big Data.

Если по сути, то некоторым уже нужно что-то делать с этим:
"за 1 минуту интернета появляется 11 тыс. записей на Linkedin и 278 тыс. записей на Twitter".

Первый подход - спускать все на /dev/null.
Второй подход - пытаться как-то анализировать весь этот хаос.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058257
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODAskyANA,

Понимаю, что у многих на сейчас такой проблемы нет. Но это не значит, что она не появится в будущем. Пока у нас многие данные проще спустить в утиль, т.к. они не приновят профита. Но на западе из этих данных научились выжимать деньги, соответственно, появилась ниша для Big Data.

Если по сути, то некоторым уже нужно что-то делать с этим:
"за 1 минуту интернета появляется 11 тыс. записей на Linkedin и 278 тыс. записей на Twitter".

Первый подход - спускать все на /dev/null.
Второй подход - пытаться как-то анализировать весь этот хаос.

Вот у нас такая проблема началась. Стали использовать вертику.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058306
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
a_voronin,

Если информация не секретна, опишите в двух словах о преимуществах данного решения.

Вертика лицензируется потерабайтно. Сколько терабайт данных в вашем проекте уже есть и сколько прогнозируется?
Какие преимущества RDBMS вы использовали для обработки неструктурированых данных?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058422
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODA, дак Вы суть проблемы описать можете, или нет? Всё вокруг да около ходите :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058459
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
skyANA,

Описал тремя постами выше.
Чем обработать большие объемы неструктурированных данных дешево?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058536
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODAКакие преимущества RDBMS вы использовали для обработки неструктурированых данных?
дайте угадаю - структурируют и обрабатывают!!!!
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058549
GASTROPODA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ivan Durak,

Т.е. возят картошку на мерседесе?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058634
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GASTROPODAskyANA,

Описал тремя постами выше.
Чем обработать большие объемы неструктурированных данных дешево?А зачем их вообще обрабатывать? Откуда они вдруг берутся большие? :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058717
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voroninGASTROPODAskyANA,

Понимаю, что у многих на сейчас такой проблемы нет. Но это не значит, что она не появится в будущем. Пока у нас многие данные проще спустить в утиль, т.к. они не приновят профита. Но на западе из этих данных научились выжимать деньги, соответственно, появилась ниша для Big Data.

Если по сути, то некоторым уже нужно что-то делать с этим:
"за 1 минуту интернета появляется 11 тыс. записей на Linkedin и 278 тыс. записей на Twitter".

Первый подход - спускать все на /dev/null.
Второй подход - пытаться как-то анализировать весь этот хаос.

Вот у нас такая проблема началась. Стали использовать вертику.

А я еще под вертику положу хадуп )

Это вообще моя мечта
хадуп+вертика+ssas+эксель
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39058753
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллka_voroninпропущено...


Вот у нас такая проблема началась. Стали использовать вертику.

А я еще под вертику положу хадуп )

Это вообще моя мечта
хадуп+вертика+ssas+эксель

Я пытаюсь сейчас сделать "вертика+ssas+эксель"
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39059059
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллka_voroninпропущено...


Вот у нас такая проблема началась. Стали использовать вертику.

А я еще под вертику положу хадуп )

Это вообще моя мечта
хадуп+вертика+ssas+эксель
ну замени вертику на гринплам - и твоя шутка перестанет быть шуткой.
http://pivotal.io/big-data/pivotal-hawq
авторWorld’s Most Advanced Enterprise SQL on Hadoop Analytic Engine
Leverage advanced analytics for your data in Apache Hadoop using a massively-parallel processing SQL engine
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39059139
GVF112GVF
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ivan Durak,

FYI ...

Pivotal HD – HAWQ is based on Greenplum Database.

- HAWQ SQL access to Hadoop data (including HBase) is done via the Greenplum Database External Table feature
Part of what is now called PXF – Pivotal Extension Framework.

- HAWQ uses its own internal proprietary metadata
Does not use Apache Hadoop Hive Metadata Catalog (HCatalog)

PS: BigInsights with BigSQL - http://www.ibm.com/developerworks/library/bd-bigsql/

Kind regards,
Vadim.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39061376
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voroninкириллkпропущено...


А я еще под вертику положу хадуп )

Это вообще моя мечта
хадуп+вертика+ssas+эксель

Я пытаюсь сейчас сделать "вертика+ssas+эксель"

А как решили проблему разных операционных систем?

ssas винда
вертика линух
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39061397
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллka_voroninпропущено...


Я пытаюсь сейчас сделать "вертика+ssas+эксель"

А как решили проблему разных операционных систем?

ssas винда
вертика линух

а что такое "проблема разных операционных систем"? И зачем её решать?

Поставили на винду последний драйвер вертики и законнектились.

Provider=VerticaOLEDB.1;Data Source=...;Persist Security Info=True;Password=**********;User ID=olap_user;Locale Identifier=1033;Initial Catalog=olap;Port=5433
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39119512
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Cloudera предложила установить следующие компоненты:

Impala - which you will use for interactive query
Apache Hive - which you will use for structure storage (i.e. tables in the Hive metastore)
Hue - which you will use for end user query access
HDFS - which you will use for distributed data storage
YARN - processing framework used by Hive (includes MR2)

HDFS - понятно, чтобы все хранить

а чем отличаются:

Impala - which you will use for interactive query
Apache Hive - which you will use for structure storage (i.e. tables in the Hive metastore)
Hue - which you will use for end user query access

Как я понимаю запросы к hdfs надо писать на Apache Hive
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39119557
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Чем отличаются если коротко:

Impala - собственная коммерческая разработка Cloudera, in-memory SQL-engine on Hadoop, вроде самая быстрая, погуглите на тему SQL-engine on Hadoop, найдете сравнения. Аналоги от других вендоров: Spark-SQL, Drill, Apache что-то там (пока в инкубаторе). Использовать в качестве драйвера для BI систем с минимальной задержкой.

Apache Hive - это НЕ in-memory (на основе batch заданий MapReduce over HDFS, т.е. файловые операции ввода-вывода) SQL (HiveQL) engine on Hadoop. Для BI не подходит, т.к. высока задержка, но может лопатить петабайты, в основном для примитивного ETL или наполнения DHW из неструктурированных данных из Hadoop. Существуют оптимизации по скорости: Hive on Tez, Hive on Spark, но все равно до in-memory по скорости далеко, хотя кому-то хватит.

Hue - примитивный WEB-интерфейс для написания запросов к Impala и Hive.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39120016
loki1984
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ВжикЧем отличаются если коротко:

Impala - собственная коммерческая разработка Cloudera, in-memory SQL-engine on Hadoop, вроде самая быстрая, погуглите на тему SQL-engine on Hadoop, найдете сравнения. Аналоги от других вендоров: Spark-SQL, Drill, Apache что-то там (пока в инкубаторе). Использовать в качестве драйвера для BI систем с минимальной задержкой.


Impala не in-memory (но map-reduce не использует за счет чего и правда быстрее). Да и не самый быстрый и технологичый (нет поддержки sql-99).
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39120221
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
loki1984Impala не in-memory (но map-reduce не использует за счет чего и правда быстрее). Да и не самый быстрый и технологичый (нет поддержки sql-99).
А что тогда быстрее и технологичнее импалы?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39120982
loki1984
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,

IBM big sql
Pivotal hawq

Написаны на c++. Айбиэмовский движок умеет подтягивать данные из сторонних субд и join'ить их с данными в hadoop. В big sql поддержка sql 2011, hawq sql 2008, если не ошибаюсь.

Ни импала ни эти движки не являются in-memory, не путайте.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39121968
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
loki1984haXbat,

IBM big sql
Pivotal hawq

Написаны на c++. Айбиэмовский движок умеет подтягивать данные из сторонних субд и join'ить их с данными в hadoop. В big sql поддержка sql 2011, hawq sql 2008, если не ошибаюсь.

Ни импала ни эти движки не являются in-memory, не путайте.
а спарк?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39122803
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbatloki1984Impala не in-memory (но map-reduce не использует за счет чего и правда быстрее). Да и не самый быстрый и технологичый (нет поддержки sql-99).
А что тогда быстрее и технологичнее импалы?
Teradata.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39127818
loki1984
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexhaXbatпропущено...

А что тогда быстрее и технологичнее импалы?
Teradata.
терадате поплохеет сильно в следующие несколько лет. Купит их кто-нибудь и распилит. Маркетинговые приложение они уже продают (а может и закрывают).
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39127839
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
loki1984Apexпропущено...

Teradata.
терадате поплохеет сильно в следующие несколько лет. Купит их кто-нибудь и распилит. Маркетинговые приложение они уже продают (а может и закрывают).
Какое это отношение имеет к тому, что она сильно "быстрее и технологичнее" импалы, как выразился вопрошающий?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39127860
loki1984
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apexloki1984пропущено...

терадате поплохеет сильно в следующие несколько лет. Купит их кто-нибудь и распилит. Маркетинговые приложение они уже продают (а может и закрывают).
Какое это отношение имеет к тому, что она сильно "быстрее и технологичнее" импалы, как выразился вопрошающий?
Такое, что все течет и меняется. Может года через 3 или 5 терадата перестанет быть технологичнее.

Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее...
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39129302
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
loki1984Такое, что все течет и меняется. Может года через 3 или 5 терадата перестанет быть технологичнее.

Ну я же не отвечал на вопрос о том, что может быть через 3-5 лет.

loki1984Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее...
И чем же предпочтительнее для этих сценариев?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39129345
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
loki1984Apexпропущено...

Какое это отношение имеет к тому, что она сильно "быстрее и технологичнее" импалы, как выразился вопрошающий?
Такое, что все течет и меняется. Может года через 3 или 5 терадата перестанет быть технологичнее.

Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее...
террадата мастодонт, но время мастодонтов прошло.
Вот гринплам, молодой да ранний конкурент террадаты - бац и уже стал опен сорс!!
Во этот поворот! Ставлю свой золотой зуб, что через 5 лет он обойдет террадату по популярности. Опенсорсы рулят!
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39130042
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durakloki1984пропущено...

Такое, что все течет и меняется. Может года через 3 или 5 терадата перестанет быть технологичнее.

Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее...
террадата мастодонт, но время мастодонтов прошло.
Вот гринплам, молодой да ранний конкурент террадаты - бац и уже стал опен сорс!!
Во этот поворот! Ставлю свой золотой зуб, что через 5 лет он обойдет террадату по популярности. Опенсорсы рулят!


На примере пентахо видно. что без какого-то четкого плана технология или не развивается или не так как надо
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39130294
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durakloki1984пропущено...

Такое, что все течет и меняется. Может года через 3 или 5 терадата перестанет быть технологичнее.

Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее...
террадата мастодонт, но время мастодонтов прошло.
Вот гринплам, молодой да ранний конкурент террадаты - бац и уже стал опен сорс!!
Во этот поворот! Ставлю свой золотой зуб, что через 5 лет он обойдет террадату по популярности. Опенсорсы рулят!Сама EMC после 2013 года выпала из лидеров в области хранилищ данных. В последние 2 года она в нижнем правом квадранте гартнера.
Но, тем не менее, ход очень интересный. Особенно в свете импортозаместительства. Вот только, мне кажется, скоро какая-нибудь компашка "Рога&Копыта" в России форкнет Greenplum и станет он истинно православным, трижды победоносным российским продуктом. Ну а EMC кукиш достанется. Время покажет.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39131784
query_monster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Alexander RyndinСама EMC после 2013 года выпала из лидеров в области хранилищ данных. В последние 2 года она в нижнем правом квадранте гартнера.
Но, тем не менее, ход очень интересный. Особенно в свете импортозаместительства. Вот только, мне кажется, скоро какая-нибудь компашка "Рога&Копыта" в России форкнет Greenplum и станет он истинно православным, трижды победоносным российским продуктом. Ну а EMC кукиш достанется. Время покажет.
и всё равно это будет лучше чем exadata и точки зрения performance и с точки зрения цены. Надежность будет хуже, тут не поспоришь.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39131873
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
query_monsterAlexander RyndinСама EMC после 2013 года выпала из лидеров в области хранилищ данных. В последние 2 года она в нижнем правом квадранте гартнера.
Но, тем не менее, ход очень интересный. Особенно в свете импортозаместительства. Вот только, мне кажется, скоро какая-нибудь компашка "Рога&Копыта" в России форкнет Greenplum и станет он истинно православным, трижды победоносным российским продуктом. Ну а EMC кукиш достанется. Время покажет.
и всё равно это будет лучше чем exadata и точки зрения performance и с точки зрения цены. Надежность будет хуже, тут не поспоришь.Не стал бы я первой части фразы расписываться, как впрочем и во второй. Цену нужно считать, конечно, с точки зрения стоимости владения, а не просто цена железа плюс цена софта.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132221
loki1984
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander Ryndinquery_monsterпропущено...

и всё равно это будет лучше чем exadata и точки зрения performance и с точки зрения цены. Надежность будет хуже, тут не поспоришь.Не стал бы я первой части фразы расписываться, как впрочем и во второй. Цену нужно считать, конечно, с точки зрения стоимости владения, а не просто цена железа плюс цена софта.
конечно не стал бы, ты ж сотрудник оракла, и тебе платят, чтобы ты рекламировал именно его
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132226
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
loki1984Alexander Ryndinпропущено...
Не стал бы я первой части фразы расписываться, как впрочем и во второй. Цену нужно считать, конечно, с точки зрения стоимости владения, а не просто цена железа плюс цена софта.
конечно не стал бы, ты ж сотрудник оракла, и тебе платят, чтобы ты рекламировал именно егоне поверите, но я бы и за exadata не стал бы расписывать. Как впрочем и за любой другой продукт.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132230
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Саша, вот ты мимоходом в соседней теме обозвал Кевина Клоссона проституткой. А можешь пояснить, за что?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132233
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А тут оказывается - кипит жизнь)))))
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132234
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
loki1984,

Можете все-таки ответить на мой вопрос, если будет время, конечно


Apexloki1984Вы, как я понимаю, работаете в Amazon? Терадата что-то пытается изобразить в облаке (судя по последним анонсам), но согласитесь, redshift для этих сценариев предпочтительнее...

И чем же предпочтительнее для этих сценариев?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132242
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexСаша, вот ты мимоходом в соседней теме обозвал Кевина Клоссона проституткой. А можешь пояснить, за что?Ну мне не очень понятно, когда человек много лет продвигает в своем блоге продукт X, является его архитектором, а потом мгновенное "прозревает", перейдя в другую компанию, и после этого даже не столько рекламирует продукт Y, сколько поливает грязью продукт X. Я бы понял, если бы он перешел и начал продвигать продукт Y, начал вкладываться в его развитие. Но это не тот случай. Какая-то за этим стоит темная история - девку у него увели, с позором выперли, миллион долларов заплатили или что-то еще.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132260
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinApexСаша, вот ты мимоходом в соседней теме обозвал Кевина Клоссона проституткой. А можешь пояснить, за что?Ну мне не очень понятно, когда человек много лет продвигает в своем блоге продукт X, является его архитектором, а потом мгновенное "прозревает", перейдя в другую компанию, и после этого даже не столько рекламирует продукт Y, сколько поливает грязью продукт X. Я бы понял, если бы он перешел и начал продвигать продукт Y, начал вкладываться в его развитие. Но это не тот случай. Какая-то за этим стоит темная история - девку у него увели, с позором выперли, миллион долларов заплатили или что-то еще.
А может быть он просто стал свободен от юридических обязятельств не говорить о недостатках продукта Х? Тем более, что ничего нового, например для меня, да и всех, кто не является фанатиком Экзадаты, он не рассказал. А недовольные ораклофилы почему-то так и не предоставили доказательств его неправоты или вранья. То ли квалификации не хватило, то ли опровергать нечего, т.к. описанные недостатки действительно есть.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132262
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexAlexander Ryndinпропущено...
Ну мне не очень понятно, когда человек много лет продвигает в своем блоге продукт X, является его архитектором, а потом мгновенное "прозревает", перейдя в другую компанию, и после этого даже не столько рекламирует продукт Y, сколько поливает грязью продукт X. Я бы понял, если бы он перешел и начал продвигать продукт Y, начал вкладываться в его развитие. Но это не тот случай. Какая-то за этим стоит темная история - девку у него увели, с позором выперли, миллион долларов заплатили или что-то еще.
А может быть он просто стал свободен от юридических обязятельств не говорить о недостатках продукта Х? Тем более, что ничего нового, например для меня, да и всех, кто не является фанатиком Экзадаты, он не рассказал. А недовольные ораклофилы почему-то так и не предоставили доказательств его неправоты или вранья. То ли квалификации не хватило, то ли опровергать нечего, т.к. описанные недостатки действительно есть.Недостатки есть у каждого продукта, если копнуть поглубже, чем маркетинговые материалы. Недостатков нет только у сферических коней.
По поводу Клоссона - ему много кто отвечал в его блоге, кого-то он вообще модерирует. Но я не об этом. Я говорю, что мне сложно представить, что вот я занимаюсь каким-то решением (я не знаю точно кем он был в oracle, но называет себя performance architect of Exadata), а потом ухожу и начинаю лить на это решение помои. Этому должна быть какая-то веская причина.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132312
loki1984
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apexloki1984,

Можете все-таки ответить на мой вопрос, если будет время, конечно


Apexпропущено...


И чем же предпочтительнее для этих сценариев?
гибкостью, ценой за терабайт, масштабированием (подробно искать лень, но вроде teradata в облаке максимум до 20ТБ пока что). Opex vs Capex и.т.п. Вообще это скорее вы могли бы объяснить чем лучше. Может "изнутри" все по-другому.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132323
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinЯ говорю, что мне сложно представить, что вот я занимаюсь каким-то решением (я не знаю точно кем он был в oracle, но называет себя performance architect of Exadata), а потом ухожу и начинаю лить на это решение помои. Этому должна быть какая-то веская причина.
Сначала он спроектировал Экзадату, потом понял, что то, что он спроектировал, это дерьмо, потом понял, что исправить это не по его способностям, поэтому ушёл пока не выперли. По-моему, это вполне логичная цепочка.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132360
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovAlexander RyndinЯ говорю, что мне сложно представить, что вот я занимаюсь каким-то решением (я не знаю точно кем он был в oracle, но называет себя performance architect of Exadata), а потом ухожу и начинаю лить на это решение помои. Этому должна быть какая-то веская причина.
Сначала он спроектировал Экзадату, потом понял, что то, что он спроектировал, это дерьмо, потом понял, что исправить это не по его способностям, поэтому ушёл пока не выперли. По-моему, это вполне логичная цепочка. По поводу "дерьмо" я точно не согласен. Это я говорю как человек поработавший с ней. С OLTP задачами я мало на ней сталкивался, но на DWH задачах это очень достойное решение. Но только смотреть это решение нужно на реальных, а не синтетических задачах.

По поводу Клоссона. Вряд ли он сильно приложил руку к созданию Exadata. Все-таки поздновато он пришел в Oracle. А вот кто серьезно вложился - те сильно не пиарятся. Но патентов за ними очень много .
Клоссон уходил из Oracle в подразделение Greenplum, теперь вот уже во Flash-подразделении. Похоже и там он никому не нужен. Все-таки заниматься flash-массивами это гораздо менее инженерная работа.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132461
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
loki1984,

Кажется я понял о чем вы.
Для начала стандартный дисклеймер: Все, о чем я пишу является моим личным мнением и может не совпадать с позицией компании Amazon.

Теперь к сути. Если вы говорите, что Redshift более подходит для облака, чем Teradata, то можно ли сказать то же самое про другие СУБД? Например, можно ли сказать, что Redshift больше подходит для облака, чем Oracle, MySQL, MSSQL или PostgreSQL? Очевидно данное утвержденеи неверно, т.к. все они существуют в том же самом облаке , что и Redshift. Говоря о Redshift, вы, похоже, смешиваете два, в общем случае независимых элемента: сама СУБД и облачная инфраструктура вокруг нее. Сама по себе СУБД Redshift не более облачна, чем все те СУБД, которые я перечислил выше. По-сути это всего лишь Paracel + расширенные возможности команды COPY, позвоялющие выгружать\загружать данные с\на S3,EMRFS (она же HDFS), DDB и пожалуй все. Гибкость, т.е. возможность за минуту создать кластер нужной конфигурации, быстро загрузить данные с S3, погонять запросы столько сколько нужно, сделать бэкап и удалить кластер до следующего раза - это все возможности облачной инфраструктуры, причем именно Амазоновской инфраструктуры, а не какой-то другой. В любом другом облаке Paracel не даст вам никаких преимуществ пока не будет полноценно интегрирован в него, да и то, сегодня конкурентов AWS по количеству сервисов и многому другому нет.

Цена за террабайт - это вопрос ценообразования и финансовых возможностей поставщика. Весь AWS - это меньше 10-то части бизнеса Амазона, он может позволить себе очень низкую маржинальность.

Масштабируемость - Redshift более чувствителен к усложнению запросов и\или количества одновременно выполняемых запросов, в этом смысле Teradata масштабируется гораздо лучше. Ограничение масштабируемости Teradata в облаке связанно именно с недоразвитостью их облачной инфраструктуры, а не какими-то ограничениями самой СУБД Teradata. Т.е в данном случае преимуществом опять же является первоклассная архитектура и инфраструктура Амазоновского облака.

Итого, все плюсы Redshift'a обеспечены возможностями AWS, окажись на месте Paracel например Vertica, вы бы сегодня говорили о том, что Vertica лучше подходит для облака, чем Teradata, хотя она точно так же сама по себе не более облачна, чем остальные.

Технически же Teradata гораздо функциональнее и более продвинута, чем Redshift . Но техническая привлекательность не означает привлекательность рыночную, когда за десятую долю стоимости кластера Teradata можно построить в десять раз больший кластер Redshift , причем сделать это буквально за минуты, а не за месяцы, как это обычно бывает с традиционными on-premise software, то конечно же все технические плюсы Teradata меркнут перед экономией средств,которые можно получить на Redshift. Но это уже другой вопрос, не тот, который тут обсуждался изначально.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132468
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinВсе-таки заниматься flash-массивами это гораздо менее инженерная работа.
Это ты нам как инженер по flash-массивам с многолетним стажем говоришь?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132477
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexAlexander RyndinВсе-таки заниматься flash-массивами это гораздо менее инженерная работа.
Это ты нам как инженер по flash-массивам с многолетним стажем говоришь?Это IMHO.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39132760
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexander RyndinApexпропущено...

Это ты нам как инженер по flash-массивам с многолетним стажем говоришь?Это IMHO.
Но на чем-то же это IMHO основано?
...
Рейтинг: 0 / 0
149 сообщений из 149, показаны все 6 страниц
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как двигаться в сторону BigData
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]