|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллk Я говорю про единственный инструмент для аналитиков. Или Вы думаете аналитики фейсбука строят матрицы и воронки в экселе подключаясь к вертике? Microstrategy там на 100+ серверах :) ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2014, 18:14 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Vovaka, Это шутка? Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами Кубы, хадуп, не важно. Но не вижу такого инструмента ... |
|||
:
Нравится:
Не нравится:
|
|||
24.10.2014, 14:57 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkVovaka, Это шутка? Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами Кубы, хадуп, не важно. Но не вижу такого инструментаХм. MATLAB? Язык R? BigInsights? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.10.2014, 15:33 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkVovaka, Это шутка? Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами Кубы, хадуп, не важно. Но не вижу такого инструмента зачем в екселе?? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.10.2014, 23:47 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ivan Durak, потому что бизнес любит эксель :) ... |
|||
:
Нравится:
Не нравится:
|
|||
28.10.2014, 10:54 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллk, Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.10.2014, 11:06 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkIvan Durak, потому что бизнес любит эксель :) мой бизнес любит sap, sas и писать sql ... |
|||
:
Нравится:
Не нравится:
|
|||
28.10.2014, 11:28 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
А мне на собеседе в какой-то конторе говорят: а мы хадуп поюзали, тормозной он, запилили свои ништяки прямо на c++ и теперь типа мы прёмся... ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2014, 15:34 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAкириллk, Вы не можете нагуглить дижок , через который подключить Excel к "Кубы, хадуп, не важно"? не все могут нагуглить дижок ... |
|||
:
Нравится:
Не нравится:
|
|||
15.11.2014, 12:07 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhTomatoЕдинственый способ двигаться к БигДата - работать с ней. да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата. Статья на Хабре: IBM запускает совместные магистерские программы в области Больших Данных с ведущими российскими университетами. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.11.2014, 14:55 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
как думаете hadoop поднимать на red hat (linux) или windows 7? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 00:49 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkкак думаете hadoop поднимать на red hat (linux) или windows 7?Да на чём проще, на том и поднимайте. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 09:55 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkкак думаете hadoop поднимать на red hat (linux) или windows 7? Вроде как под виндой его уже можно запускать, но зачем лишние проблемы? hadoop и так до сих пор напоминается собранный на соплях прототип. linux по вкусу- гораздо спокойнее будет. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 09:55 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhTomatoЕдинственый способ двигаться к БигДата - работать с ней. да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата. По оценкам экспертов уже к 2015 году по всему миру будет создано 4,4 млн. рабочих мест для специалистов в области работы с Большими Данными. Отсюда. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.11.2014, 16:11 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAкириллkкак думаете hadoop поднимать на red hat (linux) или windows 7?Да на чём проще, на том и поднимайте. Я пробовал подымать его под виндой полтора года назад, в принципе работает, но это явно не для продакшина, т.к. пришлось похачить кучу скприптов в процессе. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.11.2014, 12:55 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Вот, кстати, никогда не мог понять, зачем ярд строк в Excel?? что "бизнес" или аналитик поймет в этой простыне?? Даже когда ярд грузят в Qlik, я сразу говорю - неправильно поставлена задача. Только в одном случае, пожалуй - есть куча данных, а что смотреть - непонятно. Да и то, в этом случае - все данные не нужны. Не надо данные за 5 лет, чтобы понять суть задачи и агрегировать данные / разбить задачу на куски / детализировать требования, что хотим получить. В хадуп, агрегация, мат.стат / datamining (тот же Mahout)- результаты можно вертеть где угдодно. Хоти все проводки - что ж, прямой запрос к базе (или прямой, или отдельные инструменты - тут важен план запроса, чтобы базу не положить) - и извольте простыню. С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
17.12.2014, 15:59 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Прошло пол года в поисках компаний с хадупом Пока безрезультатно ) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 17:00 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ищи со Spark'ом и Python либо Scala ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 17:11 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ВжикИщи со Spark'ом и Python либо Scala Спасибо. Искал по запросу HDP Developer ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2015, 18:08 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
skyANAкириллk, Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"? Я месяц назад гуглил, результат был нулевой. Потом взял в руки Мондриан, пофиксил код так, чтобы он работал со Spark SQL, а также пофиксил код, отвечающий за генерацию XMLA протокола. Получился нормальный ROLAP сервер, слушающий XMLA запросы по HTTP, к которому Ексель коннектится как к родному Analysis Services. Вот только руки не доходят опубликовать на блоге все: и бинарники, и инструкцию, и рассказ о том, как делал. Пришлите запрос на ibobak at gmail dot com - вышлю вам бинарники, прогоните на своих данных, скажете как работает. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.06.2015, 02:25 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Игорь БобакskyANAкириллk, Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"? Я месяц назад гуглил, результат был нулевой. Потом взял в руки Мондриан, пофиксил код так, чтобы он работал со Spark SQL, а также пофиксил код, отвечающий за генерацию XMLA протокола. Получился нормальный ROLAP сервер, слушающий XMLA запросы по HTTP, к которому Ексель коннектится как к родному Analysis Services. Вот только руки не доходят опубликовать на блоге все: и бинарники, и инструкцию, и рассказ о том, как делал. Пришлите запрос на ibobak at gmail dot com - вышлю вам бинарники, прогоните на своих данных, скажете как работает. И спарковского sql хватает чтобы AS делал все что нужно??? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.06.2015, 15:33 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Иван, Вы наверное не поняли. MSAS вообще не применяется здесь. Есть хадуп. Есть хайв. Есть Spark SQL, работающий с данными, которые в хайве, только быстрее, чем сам хайв. На порядок быстрее. Есть Excel, в нем обычная пайвот таблица. В екселе коннектимся к Microsoft Analysis Services, но в адресной строке пишем http://адрес-XMLA-сервера-мондриана , Ескель наивно думает что это MSAS, а на самом деле это Мондриан, работающий по тому же протоколу XMLA. На Мондриан из екселя уходит MDX, а с Мондриана в Spark SQL уходят SQL-запросы, которые выполняются кластером по in-memory-принципу. Обо всем этом я обязательно напишу на блоге, и будет это в ближайшие дни. ---------------- Но мы увели начальную тему разговора автора топика. Предлагаю вернуться к ней. когда автор спрашивает "Как двигаться в сторону BigData", надо поставить себе вначале вопрос: чем будете заниматься - разработкой под Big Data, или администрированием/настройкой кластеров? Я лично вошел в Big Data около полугода назад. Еще здесь на форуме задавал вопросы о книжках, и поскольку здесь людей мало, то они светятся на первой странице. Так вот, НЕ НАЧИНАЙТЕ ИЗУЧАТЬ С DEFINITIVE GUIDE - вы его всеравно не поймете. Первое, что надо сделать - научиться программировать на джаве, и хотя бы чуть чуть выучить линукс. Я советую пойти по такому пути (полезно будет для тех, кто как и я пришел с мира Майкрософта, C#, .NET, MSAS, MS SQL): возьмите для начала готовую виртуалку Hortonworks Sandbox (есть в сетке), накрутите на нее GUI - я описал как это сделать, поставьте туда InttelliJ IDEA, и сделайте для начала Hello World - добейтесь того, чтобы вы понимали где среда разработки, как в ней сделать jar-файл из вашего приложения, как этот jar запустить в консоли и что такое линуксовая консоль вообще, что такое classpath, и т.д. Порешайте немного алгоритмических задачек например отсюда https://leetcode.com/problemset/algorithms/ чтобы понять что такое HashMap, TreeMap, HashSet, List<>, StringBuffer (? кажется? может путаю с C# StringBuilder). Разберитесь с тем, как работает сериализация - как записать на диск объект и считать его с диска. Напишите программку, читающую данные из MySQL через JDBC - поймите как работает JDBC (на сендбокс-машинке уже стоит MySQL - можете только для удобства поставить туда MySQL Workbench). Когда разобрались с джавой, разберитесь с тем, как работает maven - без него вообще ничего делать нельзя (нет, ну конечно можно - но это "траходром" с поиском "а какая jar-ка нужна, чтобы наш mapreduce-джоб откомпилировался"). И разберитесь как он интегрируется с IntelliJ. Когда поняли, как работает Maven, возьмите тот пример с mapreduce word count, и попытайтесь реализовать. Особенно важно найти то, на какие jar надо ссылаться, а с этим поможет maven. Запустите его вначале локально (без кластера). Потом "hadoop jar ..." - в кластере. Самое тяжелое - это "пробить стенку", в том смысле, что вот "вижу я код word count, а как его компильнуть, как запустить, куда деплоить, что происходит" - вот это понять тяжело. Но вот когда поймете, то все пойдет как по маслу дальше. На счет книжек. Самое противное в книжках - это отсутствие у автора понимания, что человек ничего не знает. Вот пишет автор теорию, доходим до какого-то места, и бац - текст "а давайте запустим вот этот код". А ГДЕ ЗАПУСТИМ? А КАК? И приехали - берем в руки другую книжку.... Потом начинаем понимать, что толку с книжек - как с быка молока (в плане НАУЧИТСЯ ПРАКТИЧЕСКИ ЧТО-ТО ДЕЛАТЬ, а не понять теорию). В конце концов заканчивается тем, что вы просто перебираете кучу примеров кода из блогов, делаете их дебаг в IntelliJ, и до вас начинает доходить. А вот дальше можно уже почитать и теорию - definitive guide например. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.06.2015, 19:19 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ну не-знаю, не знаю... Я конечно же за просвещение и описание как Вы это сделали... Но путь с Java в сторону Big Data считаю несколько излишним. Можно начать с курса на EdX "BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark" так можно познакомиться сразу с двумя зайцами - Spark и Python, заодно немного Machine Learning. Так тема хотя бы будет приоткрыта. А дальше решать что по душе из перечисленного или их комбинаций Spark, Python, Machine Learning, туда и двигать. Hadoop сам по себе - всего лишь распределенная файловая система для больших данных + параллельные вычисления, программирование + ETL через доп. инструменты. По поводу Hadoop - Definitive Guide, конечно - сразу не стоит) ... |
|||
:
Нравится:
Не нравится:
|
|||
28.06.2015, 20:12 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Вжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю. Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.06.2015, 21:47 |
|
|
start [/forum/topic.php?fid=48&msg=38785920&tid=1856779]: |
0ms |
get settings: |
12ms |
get forum list: |
15ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
36ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
55ms |
get tp. blocked users: |
1ms |
others: | 365ms |
total: | 502ms |
0 / 0 |