|
Посоветуйте форумов и литературы для изучения инфраструктуры BigData с нуля
|
|||
---|---|---|---|
#18+
Коллеги, добрый день. На очень хорошем уровне знаю SQL (Oracle, MS SQL Server - на уровне Senior). Пол года назад перебрался на Big Data - стек Scala, Spark, Hadoop, Zeppelin. Прикладные задачи решать удаётся без проблем - но ловлю себя на том, что нет пока такого глубокого понимания, как всё работает, как было на классических СУБД. Не подскажите, где можно найти хорошо структурированный материал по NoSQL и BigData, где бы последовательно рассказывалось всё про парадигму в целом и про наиболее популярные технологии в частности? Там Hadoop, Hive, другие технологии этого стека - в каких случаях и для чего их в принципе целесообразно использовать. + Ещё есть дома 2 компа относительно старых, на которых хочу поэксперементировать с технологиями BigData в домашних условиях - можете заодно подсказать информацию, как развернуть кластер с нуля - с чего вообще стоит начинать в изучении этого пласта информации - чтобы не хвататься за всё подряд и сделать всё "как надо"? Извиняюсь если вопросы звучат "нубско" - но просто не знаю, с какого конца к этой "горе" информации в принципе подходить. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.07.2018, 18:09 |
|
Посоветуйте форумов и литературы для изучения инфраструктуры BigData с нуля
|
|||
---|---|---|---|
#18+
Александр БердышевНе подскажите, где можно найти хорошо структурированный материал по NoSQL и BigData, где бы последовательно рассказывалось всё про парадигму в целом и про наиболее популярные технологии в частности? А нет его. Сначала были "массивно-параллельные вычисления". По этой теме есть книги. Просто поищите. Потом гугл реализовал небольшой подмножество в виде map-reduce. Просто два шага классического вычисления с пересортировкой/пересулкой посредине. Для своей узкой задачи- ранжирования страниц по ссылкам на них. Потом появилась open-source реализация для map-reduce - hadoop. Потом пошли обратно к истокам и стали реализовывать массивно-параллельные вычисления вообще или их разные реализации на основе распределённой hdfs. Появились всякие Yarn, Hive, spark и прочее. Но теория- ничего нового. По сути- каждый решает свои задачи делая свой движок. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2018, 09:26 |
|
Посоветуйте форумов и литературы для изучения инфраструктуры BigData с нуля
|
|||
---|---|---|---|
#18+
Александр БердышевНе подскажите, где можно найти хорошо структурированный материал по NoSQL и BigData В личном опыте работы. Если вам приходилось решать оптимизационные задачи при обработке данных - основа уже есть. Весь этот зоопарк из софта, писанного разными молодыми мальчиками под узко специализированные цели и специфическое "молодёжное" видение предмета решает лишь две задачи - оптимизировать обработку в приложении к конкретной постановке и дать моральное удовлетворение писавшему мальчику. Второе выражено гораздо ярче. Если мальчику не нравится - он не будет писать столько кода. Поэтому важно сочетание, когда мальчик проникся некой идеей (типа - удалю-ка я индексы и буду сразу хранить ссылки в строке данных) и когда эта идея хоть немного вменяемо легла на поставленную перед мальчиком цель. В общем народ просто экспериментирует (в основном по молодости), творит и пробует. Иногда производительность на отдельных задачах повышается. А иногда просто мальчикам нравится отображение графа на диск без заметных затрат времени на понимание, как оно работает. В целом же это всё с точки зрения теории есть просто попытки оптимизации. А с точки зрения психологии попытки стимулируются самовнушением типа "я творю!". По оптимизации как раз и нужно искать работы, но не популярные (там обычно детский лепет), а что-то из университетов от каких-нибудь ph-degree соискателей, они имеют привычку обзоры втыкать в диссертации, мол я придумал ещё один метод, а выделяется он тем, что... И что бы показать чем он там выделяется, приводится список альтернативных подходов. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.07.2018, 14:10 |
|
|
start [/forum/topic.php?fid=48&msg=39677238&tid=1856617]: |
0ms |
get settings: |
8ms |
get forum list: |
10ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
166ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
52ms |
get tp. blocked users: |
1ms |
others: | 13ms |
total: | 270ms |
0 / 0 |