|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Игорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю. Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит. Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 11:59 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
a_voroninИгорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю. Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит. Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData. + и мне тоже. Для начала хотелось бы понять,а что же это "Big Data" и потом двигаться. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 13:11 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
BigData начинается от десятков-сотен террабайт и петабайтов, когда субд уже не могут или оперативной памяти уже не достаточно. Вот тут пример: https://www.microstrategy.com/Strategy/media/downloads/training-events/microstrategy-world/2014-vegas/MSTR-World-Yahoo!-Taiwan.pdf?ext=.pdf Там же и инструменты... Но лучше не "что это такое", а чего в текущем варианте не хватает, может быть она и не нужна - BigData))) ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 13:44 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ВжикBigData начинается от десятков-сотен террабайт и петабайтов, когда субд уже не могут или оперативной памяти уже не достаточно. Вот тут пример: https://www.microstrategy.com/Strategy/media/downloads/training-events/microstrategy-world/2014-vegas/MSTR-World-Yahoo!-Taiwan.pdf?ext=.pdf Там же и инструменты... Но лучше не "что это такое", а чего в текущем варианте не хватает, может быть она и не нужна - BigData))) имхую, что немножко мутно написано: 1. на сотне террабайтов "субд уже не могут"? с чего бы это? 2. "оперативной памяти уже не достаточно" - кому? сколько? и кто требует памяти? Разве SQL Server или PostgreSQL отказывался работать от недостатка памяти? ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 15:51 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Winnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это? 2. "оперативной памяти уже не достаточно" - кому? сколько? и кто требует памяти? Разве SQL Server или PostgreSQL отказывался работать от недостатка памяти? "субд уже не могут" = медленно ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 16:39 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Winnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это? Вопрос не в "могут", а в "могут на доступном по деньгам железе". Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 16:57 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Alexey TominWinnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это? Вопрос не в "могут", а в "могут на доступном по деньгам железе". Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь. вся бигдата - это хадуп. Не больше и не меньше. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.06.2015, 17:13 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Alexey TominWinnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это? Вопрос не в "могут", а в "могут на доступном по деньгам железе". Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь. вроде звучит правильно, но ведь здесь "bigdata" - некое волшебное слово, за которым непонятно что стоит. Если SQL Server (PostgreSQL и т.д.) не справляется на данном хардваре то базу можно сделать распределенной, репликации, шардинг и пр. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.06.2015, 10:05 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Репликация и шардинг - это все не о том, вы не получите MPP. Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.06.2015, 10:35 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ВжикРепликация и шардинг - это все не о том, вы не получите MPP. Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики. вот, я и пытаюсь понять что это и с чем его едят. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.06.2015, 10:38 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
ВжикРепликация и шардинг - это все не о том, вы не получите MPP. Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики. а че, без Machine Learnin - это не бигдата!?? Вот те раз... ... |
|||
:
Нравится:
Не нравится:
|
|||
30.06.2015, 11:59 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Ivan DurakAlexey Tominпропущено... Вопрос не в "могут", а в "могут на доступном по деньгам железе". Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь. вся бигдата - это хадуп. Не больше и не меньше. Это заблуждение !!! Big Data - это не только Hadoop. --------------------------------------------------------------------- IBM’s vision - Big Data is not just Hadoop “There’s a belief that if you want big data, you need to go out and buy Hadoop and then you’re pretty much set. People shouldn’t get ideas about turning off their relational systems and replacing them with Hadoop… As we start thinking about big data from the perspective of business needs, we’re realizing that Hadoop isn’t always the best tool for everything we need to do, and that using the wrong tool can sometimes be painful.” Ken Rudin Head of Analytics at Facebook => Hadoop will be an important part of information architectures for years to come, but it will not take over the world or even replace most traditional technologies --------------------------------------------------------------------- Kind regards, Vadim. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.06.2015, 13:44 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
a_voroninИгорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю. Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит. Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData. Для начала начните с того, что поднимите для себя сам хадуп - здесь моя статья http://ihorbobak.com/index.php/2015/05/06/installing-hadoop-using-ambari-server/ и среды разработки http://ihorbobak.com/index.php/2015/06/23/installing-development-tools-on-hadoop/ на отдельной виртуалке. Выучите java, разберитесь хорошо с maven, и реализуйте на IntelliJ IDEA всем известный пример задачи с wordcount http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html но вот только не пытайтесь этот код компилировать тем способом, что описано в тьюториале, потому что это маразм. Лучше всего работать в IntelliJ с помощью maven, используя зависимость <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.0</version> </dependency> Но для начала скачайте Hadoop_Fundamentals_LiveLessons_2nd_Edition (есть на пиратских источниках это видео - здесь не имею права приводить), поймите что есть что, поймите как файлы в HDFS запихивать, как их оттуда вынимать и т.д. - базовые вещи. А то даже для реализации wordcount Вам придется файл в HDFS положить как-то. Потом поставьте перед собою более сложную задачу. Я когда учился, поставил перед собою задачу сделать анализ логов веб-сервера на предмет того, из какой страны сколько раз каждый URL запрашивали в каком месяце. Логи взял у друга с его веб-сервера (да этого добра можно найти валом), потом здесь http://www.ip2nation.com/ вытянул БД на mysql, которая ставит в соответствие диапазон IP адресов стране, из этого добра создал zip файл, содержащий отсортированный список, класс, который по IP адресу отдает страну, этот zip файл через distributed cache пропихнул из кода драйвера (перед тем как делать join на уровне mapper-а). Пришлось почитать книжку hadoop mapreduce cookbook и т.д. Вы себе можете и другую задачу поставить, только желательно посложнее чем wordcount. Тут важно следующее: попробуйте хоть что-то сделать. Вот когда поймете как работает Hadoop. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.07.2015, 17:31 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Да, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать, потому что это извращенство. Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.07.2015, 17:54 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Игорь БобакДа, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать , потому что это извращенство . Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает. ну а кроме эмоций где же аргументы? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2015, 12:02 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
WinnipuhИгорь БобакДа, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать , потому что это извращенство . Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает. ну а кроме эмоций где же аргументы? :) Версия 1 хадупа в общем и целом не работала под windows. Вторая- потребует некоторой доработки напильником . При этом CDH, который стоит рассматривать, про windows не знает . В целом- оно действительно, не очень, на windows ставить. Не то, чтобы извращение, но могут возникнуть проблемы, по которым никто ничего не подскажет- типа в Микрософт пишите :D Про "не убунту"- это пусть Бобак рассказывает, что ему приснилось- на убунте LTE очень даже кластеры работают, да и вообще- разница не стоит того, чтобы менять убунту на центос. Вот если поднимать виртуалку- тут да, лучше ставить там то же, что и на серваках. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2015, 13:12 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Вообщем поиграл я с hortonworks сделал табличку в 1 000 000 000 записей. скормил это hortonworks Он подавился. вот думаю что делать дальше ) ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2015, 15:05 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллk, Как я понимаю без знаний по java к hadoop лучше не подходить ) ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2015, 15:06 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkВообщем поиграл я с hortonworks сделал табличку в 1 000 000 000 записей. скормил это hortonworks Он подавился. вот думаю что делать дальше )Звучит как "скормил миллиард записей Ubuntu. Он подавился". И о чем это говорит? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.07.2015, 22:48 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
кириллkсделал табличку в 1 000 000 000 записей. скормил это hortonworks вскормил это куда? в sandbox? вскармливал каким механизмом? sqoop? инструкцию прочел о распараллеливании (параметр -m) ? кириллkОн подавился. вот думаю что делать дальше ) он подавился выполняя что? втягивание этих данных? или подавился на этапе последующей выборки? хард какой? скорость мерял кто-нибудь? короче, объясните толком как делали, какое железо, откуда данные тянули, а дальше будем думать. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.07.2015, 22:17 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Игорь Бобаккириллkсделал табличку в 1 000 000 000 записей. скормил это hortonworks вскормил это куда? в sandbox? вскармливал каким механизмом? sqoop? инструкцию прочел о распараллеливании (параметр -m) ? кириллkОн подавился. вот думаю что делать дальше ) он подавился выполняя что? втягивание этих данных? или подавился на этапе последующей выборки? хард какой? скорость мерял кто-нибудь? короче, объясните толком как делали, какое железо, откуда данные тянули, а дальше будем думать. Рассказываю: в хортоне есть 15 гб свободного места. Я сгенерировал простой тестовый файл с 2 строками: "дата" , "значение". положил это на жесткий диск в в хортоне далее через интерфейс хортона, выбрал этот файл и нажал "обработать" и усе. крутисля 2 суток пока я его не остановил ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2015, 11:31 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
[quot Игорь Бобак][quot a_voronin]пропущено... Для начала начните с того, что поднимите для себя сам хадуп - здесь моя статья http://ihorbobak.com/index.php/2015/05/06/installing-hadoop-using-ambari-server/ и среды разработки http://ihorbobak.com/index.php/2015/06/23/installing-development-tools-on-hadoop/ на отдельной виртуалке. Почитал я статьи ) В целом вообще понятно. 1. начала настроить Network Settings Enable Networks Disabling IP Version 6 Disabling Firewall Disable the THP Enable NTPD 2. Далее установить веб морду ambari и в ней уже настраивать hadoop Я попробую на днях установить следуя вашей инструкии. Пока у меня голая система centos. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2015, 11:49 |
|
Как двигаться в сторону BigData
|
|||
---|---|---|---|
#18+
Т.е. ты залил на виртуалку с хортоном 15 гигов и он подавился? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.09.2015, 05:38 |
|
|
start [/forum/topic.php?fid=48&msg=39010776&tid=1856779]: |
0ms |
get settings: |
8ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
40ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
59ms |
get tp. blocked users: |
1ms |
others: | 415ms |
total: | 561ms |
0 / 0 |