powered by simpleCommunicator - 2.0.54     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как двигаться в сторону BigData
25 сообщений из 149, страница 3 из 6
Как двигаться в сторону BigData
    #38785920
Фотография Vovaka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллk
Я говорю про единственный инструмент для аналитиков.
Или Вы думаете аналитики фейсбука строят матрицы и воронки в экселе подключаясь к вертике?

Microstrategy там на 100+ серверах :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38786709
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vovaka,
Это шутка?

Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами
Кубы, хадуп, не важно.

Но не вижу такого инструмента
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38786754
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkVovaka,
Это шутка?

Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами
Кубы, хадуп, не важно.

Но не вижу такого инструментаХм. MATLAB? Язык R? BigInsights?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38787098
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkVovaka,
Это шутка?

Я хочу, чтобы пользователи могли крутить в экселе таблицы с миллиардными таблицами
Кубы, хадуп, не важно.

Но не вижу такого инструмента
зачем в екселе??
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38789033
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak,

потому что бизнес любит эксель :)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38789047
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38789051
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллk,

Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38789079
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkIvan Durak,

потому что бизнес любит эксель :)
мой бизнес любит sap, sas и писать sql
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38806514
Фотография Культура ПТ
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А мне на собеседе в какой-то конторе говорят: а мы хадуп поюзали, тормозной он, запилили свои ништяки прямо на c++ и теперь типа мы прёмся...
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38806992
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAкириллk,

Вы не можете нагуглить дижок , через который подключить Excel к "Кубы, хадуп, не важно"?

не все могут нагуглить дижок
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38810834
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
WinnipuhTomatoЕдинственый способ двигаться к БигДата - работать с ней.

да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата.
Статья на Хабре: IBM запускает совместные магистерские программы в области Больших Данных с ведущими российскими университетами.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38811331
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
как думаете

hadoop поднимать на red hat (linux) или windows 7?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38811478
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkкак думаете

hadoop поднимать на red hat (linux) или windows 7?Да на чём проще, на том и поднимайте.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38811479
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkкак думаете

hadoop поднимать на red hat (linux) или windows 7?

Вроде как под виндой его уже можно запускать, но зачем лишние проблемы?
hadoop и так до сих пор напоминается собранный на соплях прототип.
linux по вкусу- гораздо спокойнее будет.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38812112
Martin114
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
WinnipuhTomatoЕдинственый способ двигаться к БигДата - работать с ней.

да, а перед тем хорошо подумать и осознать, что БигДата - это не что-то, что завтра накроет всех и надо к нему готовиться, а узкое направление в обработке специальных данных, которые ложатся в концепцию БигДата.
По оценкам экспертов уже к 2015 году по всему миру будет создано 4,4 млн. рабочих мест для специалистов в области работы с Большими Данными.
Отсюда.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38813992
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAкириллkкак думаете

hadoop поднимать на red hat (linux) или windows 7?Да на чём проще, на том и поднимайте.
Я пробовал подымать его под виндой полтора года назад, в принципе работает, но это явно не для продакшина, т.к. пришлось похачить кучу скприптов в процессе.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38836140
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот, кстати, никогда не мог понять, зачем ярд строк в Excel?? что "бизнес" или аналитик поймет в этой простыне??

Даже когда ярд грузят в Qlik, я сразу говорю - неправильно поставлена задача. Только в одном случае, пожалуй - есть куча данных, а что смотреть - непонятно. Да и то, в этом случае - все данные не нужны. Не надо данные за 5 лет, чтобы понять суть задачи и агрегировать данные / разбить задачу на куски / детализировать требования, что хотим получить. В хадуп, агрегация, мат.стат / datamining (тот же Mahout)- результаты можно вертеть где угдодно. Хоти все проводки - что ж, прямой запрос к базе (или прямой, или отдельные инструменты - тут важен план запроса, чтобы базу не положить) - и извольте простыню.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38969000
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Прошло пол года в поисках компаний с хадупом
Пока безрезультатно )
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38969013
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ищи со Spark'ом и Python либо Scala
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38969099
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ВжикИщи со Spark'ом и Python либо Scala

Спасибо.

Искал по запросу HDP Developer
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994244
skyANAкириллk,

Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"?

Я месяц назад гуглил, результат был нулевой. Потом взял в руки Мондриан, пофиксил код так, чтобы он работал со Spark SQL, а также пофиксил код, отвечающий за генерацию XMLA протокола.

Получился нормальный ROLAP сервер, слушающий XMLA запросы по HTTP, к которому Ексель коннектится как к родному Analysis Services.

Вот только руки не доходят опубликовать на блоге все: и бинарники, и инструкцию, и рассказ о том, как делал. Пришлите запрос на ibobak at gmail dot com - вышлю вам бинарники, прогоните на своих данных, скажете как работает.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994509
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакskyANAкириллk,

Вы не можете нагуглить дижок, через который подключить Excel к "Кубы, хадуп, не важно"?

Я месяц назад гуглил, результат был нулевой. Потом взял в руки Мондриан, пофиксил код так, чтобы он работал со Spark SQL, а также пофиксил код, отвечающий за генерацию XMLA протокола.

Получился нормальный ROLAP сервер, слушающий XMLA запросы по HTTP, к которому Ексель коннектится как к родному Analysis Services.

Вот только руки не доходят опубликовать на блоге все: и бинарники, и инструкцию, и рассказ о том, как делал. Пришлите запрос на ibobak at gmail dot com - вышлю вам бинарники, прогоните на своих данных, скажете как работает.
И спарковского sql хватает чтобы AS делал все что нужно???
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994563
Иван, Вы наверное не поняли. MSAS вообще не применяется здесь. Есть хадуп. Есть хайв. Есть Spark SQL, работающий с данными, которые в хайве, только быстрее, чем сам хайв. На порядок быстрее.

Есть Excel, в нем обычная пайвот таблица. В екселе коннектимся к Microsoft Analysis Services, но в адресной строке пишем http://адрес-XMLA-сервера-мондриана , Ескель наивно думает что это MSAS, а на самом деле это Мондриан, работающий по тому же протоколу XMLA.

На Мондриан из екселя уходит MDX, а с Мондриана в Spark SQL уходят SQL-запросы, которые выполняются кластером по in-memory-принципу. Обо всем этом я обязательно напишу на блоге, и будет это в ближайшие дни.

----------------

Но мы увели начальную тему разговора автора топика. Предлагаю вернуться к ней.

когда автор спрашивает "Как двигаться в сторону BigData", надо поставить себе вначале вопрос: чем будете заниматься - разработкой под Big Data, или администрированием/настройкой кластеров?

Я лично вошел в Big Data около полугода назад. Еще здесь на форуме задавал вопросы о книжках, и поскольку здесь людей мало, то они светятся на первой странице.

Так вот, НЕ НАЧИНАЙТЕ ИЗУЧАТЬ С DEFINITIVE GUIDE - вы его всеравно не поймете. Первое, что надо сделать - научиться программировать на джаве, и хотя бы чуть чуть выучить линукс.

Я советую пойти по такому пути (полезно будет для тех, кто как и я пришел с мира Майкрософта, C#, .NET, MSAS, MS SQL):

возьмите для начала готовую виртуалку Hortonworks Sandbox (есть в сетке), накрутите на нее GUI - я описал как это сделать, поставьте туда InttelliJ IDEA, и сделайте для начала Hello World - добейтесь того, чтобы вы понимали где среда разработки, как в ней сделать jar-файл из вашего приложения, как этот jar запустить в консоли и что такое линуксовая консоль вообще, что такое classpath, и т.д.

Порешайте немного алгоритмических задачек например отсюда https://leetcode.com/problemset/algorithms/ чтобы понять что такое HashMap, TreeMap, HashSet, List<>, StringBuffer (? кажется? может путаю с C# StringBuilder). Разберитесь с тем, как работает сериализация - как записать на диск объект и считать его с диска. Напишите программку, читающую данные из MySQL через JDBC - поймите как работает JDBC (на сендбокс-машинке уже стоит MySQL - можете только для удобства поставить туда MySQL Workbench).

Когда разобрались с джавой, разберитесь с тем, как работает maven - без него вообще ничего делать нельзя (нет, ну конечно можно - но это "траходром" с поиском "а какая jar-ка нужна, чтобы наш mapreduce-джоб откомпилировался"). И разберитесь как он интегрируется с IntelliJ.

Когда поняли, как работает Maven, возьмите тот пример с mapreduce word count, и попытайтесь реализовать. Особенно важно найти то, на какие jar надо ссылаться, а с этим поможет maven. Запустите его вначале локально (без кластера). Потом "hadoop jar ..." - в кластере.

Самое тяжелое - это "пробить стенку", в том смысле, что вот "вижу я код word count, а как его компильнуть, как запустить, куда деплоить, что происходит" - вот это понять тяжело. Но вот когда поймете, то все пойдет как по маслу дальше.

На счет книжек. Самое противное в книжках - это отсутствие у автора понимания, что человек ничего не знает. Вот пишет автор теорию, доходим до какого-то места, и бац - текст "а давайте запустим вот этот код". А ГДЕ ЗАПУСТИМ? А КАК? И приехали - берем в руки другую книжку.... Потом начинаем понимать, что толку с книжек - как с быка молока (в плане НАУЧИТСЯ ПРАКТИЧЕСКИ ЧТО-ТО ДЕЛАТЬ, а не понять теорию). В конце концов заканчивается тем, что вы просто перебираете кучу примеров кода из блогов, делаете их дебаг в IntelliJ, и до вас начинает доходить. А вот дальше можно уже почитать и теорию - definitive guide например.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994574
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну не-знаю, не знаю...
Я конечно же за просвещение и описание как Вы это сделали...
Но путь с Java в сторону Big Data считаю несколько излишним.
Можно начать с курса на EdX "BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark" так можно познакомиться сразу с двумя зайцами - Spark и Python, заодно немного Machine Learning. Так тема хотя бы будет приоткрыта.
А дальше решать что по душе из перечисленного или их комбинаций Spark, Python, Machine Learning, туда и двигать.
Hadoop сам по себе - всего лишь распределенная файловая система для больших данных + параллельные вычисления, программирование + ETL через доп. инструменты.
По поводу Hadoop - Definitive Guide, конечно - сразу не стоит)
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994583
Вжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю.

Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит.
...
Рейтинг: 0 / 0
25 сообщений из 149, страница 3 из 6
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как двигаться в сторону BigData
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]