|
Помогите - Шеф сказал "выучить Hadoop", купила книжку, ничего не понимаю(((
|
|||
---|---|---|---|
#18+
Ребята, история такая: Начальник дал задание "выучить Hadoop и Spark". При этом сам босс не сильно в теме, занимается больше финансами. Я купила книжки: Hadoop: The Definitive Guide by Tom White Learning Spark: Lightning-Fast Big Data Analysis by Holden Karau Английский-хороший, училась за границей на английском языке и долго там жила. Короче говоря, прочитав несколько глав каждой из книг осознала что напрочь ничего не понимаю! Тоесть совсем!) Почему? Моя оценка-нет базовых знаний чтоб понять написанное. Например(стр. 253): "Because a Java enum's fields are defined at compile-time, you can't create new counters on the fly using enums", "Avro string can be represented by either Java String or the Avro Utf8 type". Для меня это тёмный лес)) Вместе с тем, прочитав эти главы я поняла что это совсем не то чем я занимаюсь. Я-Business Analyst в иностранной компании, проект на Big Data, Hadoop, но всё что связано непосредственно с программированием будут делать разработчики. Моя работа в основном заключается в том чтоб взаимодействовать с заказчиком, писать "requirements", донести до остальной команды что хочет заказчик. Проект большой, в Hadoop разобраться придётся обязательно, без этого никак. В связи с этим вопрос: Посоветуйте пожалуйста менее техническую книгу, где всё изложено более доступным языком,обзор Big Data в целом. На русском или английском-не имеет значения. Большое спасибо! ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2017, 06:35 |
|
Помогите - Шеф сказал "выучить Hadoop", купила книжку, ничего не понимаю(((
|
|||
---|---|---|---|
#18+
OksanaRU , Попробуйте на ютубе поискать по "Hadoop что это", "Hadoop основы" и т.д. Лекций навалом, но нужно время. Там же и про https://ww.youtube.com/watch?v=p-158Ztxk4E&list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD&index=12 ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2017, 08:12 |
|
Помогите - Шеф сказал "выучить Hadoop", купила книжку, ничего не понимаю(((
|
|||
---|---|---|---|
#18+
OksanaRU, когда я искал что-то обзорное, я не нашел, смотрел ютубы. могу посоветовать safaribooksonline, там на 10 дней бесплатный доступ (причем майлы даже не проверяют), там полно книг на тему. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2017, 11:10 |
|
Помогите - Шеф сказал "выучить Hadoop", купила книжку, ничего не понимаю(((
|
|||
---|---|---|---|
#18+
OksanaRU, попробуйте сделать какой-нибуть hello world для себя. Пока делаете - во всем разберетесь. Да и у Вас появятся конкретные вопросы. книжка + задача - это лучший путь для изучения. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2017, 11:16 |
|
Помогите - Шеф сказал "выучить Hadoop", купила книжку, ничего не понимаю(((
|
|||
---|---|---|---|
#18+
OksanaRUНачальник дал задание "выучить Hadoop и Spark".- сначала нужно выяснить до какого уровня нужно "выучить". - далее гуглим "экосистема Hadoop" (читаем общие слова про основные части, нужно просто понимать что и для чего на уровне "могу связать пару слов") - гуглим и читаем про HDFS (в той же The Definitive Guide есть глава), нужно понять на общем уровне как хранятся файлы, как находятся разные части одного файла при чтении и как пишутся данные в разбитый на части файл (на уровне общего понимания алгоритма и процесса) - гуглим и читаем про идею мап-редьюс (именно как идею пропуская куски джава кода которые будут встречаться) особенно разглядываем картинки как это работает (в гугле до фига их), опять таки на уровне понимания алгоритма - после этого читаем про Hive (опционально Pig) - на каждом этапе задаём конкретные вопросы тут на форуме главное не обращать внимания на куски джава кода (вообще не заморачиваться на джаву) и стараться понять общий алгоритм как оно работает (думаю, что как аналитик вы понимаете такой подход) недели подобного время препровождения достаточно для понимания хадупа на уровне "Я-Business Analyst" ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2017, 11:57 |
|
Помогите - Шеф сказал "выучить Hadoop", купила книжку, ничего не понимаю(((
|
|||
---|---|---|---|
#18+
chernolyasOksanaRU, попробуйте сделать какой-нибуть hello world для себя. отличный совет. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2017, 14:25 |
|
Помогите - Шеф сказал "выучить Hadoop", купила книжку, ничего не понимаю(((
|
|||
---|---|---|---|
#18+
Всем большое спасибо за ответы! Всё же нашла две книги: 1. Big Data: Principles and best practices of scalable realtime data systems by Nathan Marz (также есть на русском языке) 2. Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking by Foster Provost Рекомендуете или нет? Какая из них лучше? Спасибо! ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2017, 21:00 |
|
Помогите - Шеф сказал "выучить Hadoop", купила книжку, ничего не понимаю(((
|
|||
---|---|---|---|
#18+
OksanaRU, на хабр загляните, там имеются обзорные описания без кода ... |
|||
:
Нравится:
Не нравится:
|
|||
06.06.2017, 14:23 |
|
Помогите - Шеф сказал "выучить Hadoop", купила книжку, ничего не понимаю(((
|
|||
---|---|---|---|
#18+
OksanaRU, Попробуйте сделать какой-нибуть hello world с нуля на надупе. Пока делаете .... все вопросы отпадут сами собой. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.06.2017, 14:58 |
|
Помогите - Шеф сказал "выучить Hadoop", купила книжку, ничего не понимаю(((
|
|||
---|---|---|---|
#18+
1. Data Science for Business - отличная книга, особенно для владельцев бизнеса, инвесторов и спонсоров (топ-менеджеров), которые твердо решили инвестировать в проекты в области Data Science и хотят понять, как работают люди, которые создают эти модели, как оценивать качество этих моделей (в разных случаях) и квалификацию их разработчиков (или потенциал стартапов). Она полезна тем, кто хочет в общих чертах разобраться как устроены внутри основные алгоритмы машинного обучения, но не разбирается при этом в сложной математике, в книге так же описано неплохо куда эти алгоритмы стоит пихать, а куда нет и под какие задачи какие алгоритмы вообще бывают и т.д. В книге огромное количество кейсов приведено и вообще она классная. Но...Но там вообще нет ничего про технологии. Авторы сразу об этом пишут, что они занимаются этой темой лет 30 и технологии меняются с такой скоростью, что оставьте-ка Вы ребята технические вопросы решать своим инженерам и сосредоточьтесь на конечной цели, а не процессе. 2. Если кровь из носу надо разобраться с основными понятиями, тем, как устроена экосистема Хадуп, чем NoSQL отличается от SQL условно, есть хорошая простая книга "Big data for dummies". Ее даже на русский перевели (но так, что читать русский перевод НЕ НАДО). Посмотрите, к слову, главу про polyglot persistence. На русском языке у этого термина прямого соответствия нет (непереводимая игра слов), но смысл там такой, что "выбирайте технологии в зависимости от задачи" (и что не надо пихать везде хадуп или nosql просто потому, что это модно). В книге вообще много интересного есть, например, про то, что такое ACID, почему и ради чего в новых платформах им жертвуют и почему есть задачи, где такие платформы потом использовать не надо. 3. На основании опыта использования Hadoop в 2 крупных банках, телекоме и ФНС, могу сказать следующее. Люди, которые реально с данными работают (готовят себе данные для разработки моделей, например или разведочного анализа или банально отчеты делают или сверки) делают это через Hive или Pig чуть менее, чем полностью (там SQL на уровне 99 стандарта поддерживается и немного сверху своего), которые эти SQLподобные запросы сами переводят в MapReduce. Поэтому сначала про эти две компоненты почитайте. Программистов Java подключают, когда надо что-то посчитать такое, что в Hive и Pig посчитать не получается, но очень надо и надо быстро и шустро. Если просто очень надо, то сами аналитики пару-тройку дней покряхтят и выпилят на Python нужный расчет. MapReduce не так сложно делать, строго говоря, если ты просто данные преобразуешь, а не оптимизируешь функционал качества в распределенной среде c помощью SGD (в последнем случае не то, чтобы мега крутые навыки программирования нужны, просто в математике разобраться намного сложнее, чтобы все правильно сделать) Модели (где они есть) далее в 99% случаев обучаются на локальных нодах кластера, банально потому, что даже в крупнейших компаниях России почти нет задач, где гонять сложные алгоритмы нужно именно в распределенной среде, а делать последнее не так просто (и лишняя голованая боль на ровном месте). И делается это не с помощью Java или Scala, а на Python, т.к. проще, удобнее и больше библиотек готовых. Для понимания: сейчас сервер с 512 гигами оперативы стоит порядка 15 К рублей зеленых. Вы много задач можете назвать, где семпл (в пару процентов от выборки за последний год-два?) будет больше 0,5 терабайта? Если не нужно анализировать графы (там обычно нельзя сделать семпл, собственно с задачи PageRank все это в Гугле и зародилось), то дешево и сердито не работает, когда у Вас данные генерируются больше петабайта в год с ОДНОГО ИСТОЧНИКА. И много в России таких задач и таких компаний? Где при этом еще и машинное обучение требуется? В 0,9% случаев, когда делать модели приходится все-таки в распределенной среде, это делается, например, на Apache Spark, через Mllib (библиотека Python), но в проме его использовать сильно не любят, потому что он не очень стабильный и долго думает, перед тем, как ответить (что нормально для узкой ниши минипакетной обработки, ради которой он создавался, но не очень хорошо во всех остальных случаях, когда его, например, для потоковой обработки хотят использовать). В 0,1% случаев, когда в Mllib нет нужных библиотек или еще какие неприятности, этим занимаются специально обученные люди, которых несколько человек на корпорацию по сути и которые могут все что надо выпилить с нуля или допилить имеющиеся библиотеки так, чтобы они работали как необходимо. 4. Про Java и Scala, если раньше с ними не работали, даже не начинайте читать. 5. Если решитесь в чем-то практиковаться, сначала себе Linux Ubuntu поставьте и научитесь банально файлы из папки в папку перекладывать условно (выучите основные команды). Подтяните SQL, если требуется, и выучите Python, если не знаете. Потом уже начинайте эксперименты с Hive и MapReduce. Но т.к. на это времени у Вас не будет, просто прочитайте "Big data for dummies" и прочитайте 10-15 статей на тему с Хабра. Больше в разумные сроки Вы все-равно ничего не сможете сделать, а так хотя бы BRD, которые будете писать, не загонят в могилу людей, которые потом их в FRD переводить будут. Сразу по крайней мере. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.06.2017, 22:21 |
|
|
start [/forum/topic.php?fid=48&fpage=5&tid=1856686]: |
0ms |
get settings: |
9ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
34ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
48ms |
get tp. blocked users: |
1ms |
others: | 13ms |
total: | 142ms |
0 / 0 |