powered by simpleCommunicator - 2.0.54     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как двигаться в сторону BigData
25 сообщений из 149, страница 4 из 6
Как двигаться в сторону BigData
    #38994802
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю.

Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит.

Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994894
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voroninИгорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю.

Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит.

Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData.

+ и мне тоже.
Для начала хотелось бы понять,а что же это "Big Data" и потом двигаться.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38994960
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BigData начинается от десятков-сотен террабайт и петабайтов, когда субд уже не могут или оперативной памяти уже не достаточно.
Вот тут пример:
https://www.microstrategy.com/Strategy/media/downloads/training-events/microstrategy-world/2014-vegas/MSTR-World-Yahoo!-Taiwan.pdf?ext=.pdf
Там же и инструменты...
Но лучше не "что это такое", а чего в текущем варианте не хватает, может быть она и не нужна - BigData)))
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995137
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ВжикBigData начинается от десятков-сотен террабайт и петабайтов, когда субд уже не могут или оперативной памяти уже не достаточно.
Вот тут пример:
https://www.microstrategy.com/Strategy/media/downloads/training-events/microstrategy-world/2014-vegas/MSTR-World-Yahoo!-Taiwan.pdf?ext=.pdf
Там же и инструменты...
Но лучше не "что это такое", а чего в текущем варианте не хватает, может быть она и не нужна - BigData)))

имхую, что немножко мутно написано:

1. на сотне террабайтов "субд уже не могут"? с чего бы это?
2. "оперативной памяти уже не достаточно" - кому? сколько? и кто требует памяти? Разве SQL Server или PostgreSQL отказывался работать от недостатка памяти?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995188
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Winnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?
2. "оперативной памяти уже не достаточно" - кому? сколько? и кто требует памяти? Разве SQL Server или PostgreSQL отказывался работать от недостатка памяти?
"субд уже не могут" = медленно
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995201
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Winnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?

Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995224
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominWinnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?

Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.
вся бигдата - это хадуп. Не больше и не меньше.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995610
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominWinnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?

Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.

вроде звучит правильно, но ведь здесь "bigdata" - некое волшебное слово, за которым непонятно что стоит.
Если SQL Server (PostgreSQL и т.д.) не справляется на данном хардваре то базу можно сделать распределенной, репликации, шардинг и пр.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995643
Вжик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Репликация и шардинг - это все не о том, вы не получите MPP.
Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995647
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ВжикРепликация и шардинг - это все не о том, вы не получите MPP.
Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для
традиционной аналитики.

вот, я и пытаюсь понять что это и с чем его едят.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995781
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ВжикРепликация и шардинг - это все не о том, вы не получите MPP.
Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики.
а че, без Machine Learnin - это не бигдата!?? Вот те раз...
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #38995947
GVF112GVF
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ivan DurakAlexey Tominпропущено...


Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.
вся бигдата - это хадуп. Не больше и не меньше.

Это заблуждение !!!
Big Data - это не только Hadoop.
---------------------------------------------------------------------
IBM’s vision - Big Data is not just Hadoop

“There’s a belief that if you want big data, you need to go out and buy Hadoop and then you’re pretty much set. People shouldn’t get ideas about turning off their relational systems and replacing them with Hadoop…
As we start thinking about big data from the perspective of business needs, we’re realizing that Hadoop isn’t always the best tool for everything we need to do, and that using the wrong tool can sometimes be painful.”


Ken Rudin
Head of Analytics at Facebook



=> Hadoop will be an important part of information architectures for years to come, but it will not take over the world or even replace most traditional technologies
---------------------------------------------------------------------

Kind regards,
Vadim.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39010776
a_voroninИгорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю.

Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит.

Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData.

Для начала начните с того, что поднимите для себя сам хадуп - здесь моя статья
http://ihorbobak.com/index.php/2015/05/06/installing-hadoop-using-ambari-server/
и среды разработки
http://ihorbobak.com/index.php/2015/06/23/installing-development-tools-on-hadoop/
на отдельной виртуалке.

Выучите java, разберитесь хорошо с maven, и реализуйте на IntelliJ IDEA всем известный пример задачи с wordcount
http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html
но вот только не пытайтесь этот код компилировать тем способом, что описано в тьюториале, потому что это маразм. Лучше всего работать в IntelliJ с помощью maven, используя зависимость

<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.0</version>
</dependency>


Но для начала скачайте Hadoop_Fundamentals_LiveLessons_2nd_Edition (есть на пиратских источниках это видео - здесь не имею права приводить), поймите что есть что, поймите как файлы в HDFS запихивать, как их оттуда вынимать и т.д. - базовые вещи. А то даже для реализации wordcount Вам придется файл в HDFS положить как-то.

Потом поставьте перед собою более сложную задачу. Я когда учился, поставил перед собою задачу сделать анализ логов веб-сервера на предмет того, из какой страны сколько раз каждый URL запрашивали в каком месяце. Логи взял у друга с его веб-сервера (да этого добра можно найти валом), потом здесь http://www.ip2nation.com/ вытянул БД на mysql, которая ставит в соответствие диапазон IP адресов стране, из этого добра создал zip файл, содержащий отсортированный список, класс, который по IP адресу отдает страну, этот zip файл через distributed cache пропихнул из кода драйвера (перед тем как делать join на уровне mapper-а).
Пришлось почитать книжку hadoop mapreduce cookbook и т.д.

Вы себе можете и другую задачу поставить, только желательно посложнее чем wordcount.

Тут важно следующее: попробуйте хоть что-то сделать. Вот когда поймете как работает Hadoop.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39010781
Да, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать, потому что это извращенство. Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39011161
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь БобакДа, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать , потому что это извращенство . Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает.

ну а кроме эмоций где же аргументы?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39011276
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhИгорь БобакДа, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать , потому что это извращенство . Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает.

ну а кроме эмоций где же аргументы?

:)
Версия 1 хадупа в общем и целом не работала под windows.
Вторая- потребует некоторой доработки напильником .
При этом CDH, который стоит рассматривать, про windows не знает .
В целом- оно действительно, не очень, на windows ставить. Не то, чтобы извращение, но могут возникнуть проблемы, по которым никто ничего не подскажет- типа в Микрософт пишите :D

Про "не убунту"- это пусть Бобак рассказывает, что ему приснилось- на убунте LTE очень даже кластеры работают, да и вообще- разница не стоит того, чтобы менять убунту на центос. Вот если поднимать виртуалку- тут да, лучше ставить там то же, что и на серваках.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39011442
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вообщем поиграл я с hortonworks

сделал табличку в 1 000 000 000 записей. скормил это hortonworks
Он подавился.

вот думаю что делать дальше )
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39011445
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллk,

Как я понимаю без знаний по java к hadoop лучше не подходить )
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39011767
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кириллkВообщем поиграл я с hortonworks

сделал табличку в 1 000 000 000 записей. скормил это hortonworks
Он подавился.

вот думаю что делать дальше )Звучит как "скормил миллиард записей Ubuntu. Он подавился". И о чем это говорит?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39015825
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Birkhoff,

я про этот продукт
http://hortonworks.com/products/hortonworks-sandbox
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39016234
кириллkсделал табличку в 1 000 000 000 записей. скормил это hortonworks

вскормил это куда? в sandbox?

вскармливал каким механизмом? sqoop? инструкцию прочел о распараллеливании (параметр -m) ?


кириллkОн подавился.
вот думаю что делать дальше )

он подавился выполняя что? втягивание этих данных? или подавился на этапе последующей выборки?

хард какой? скорость мерял кто-нибудь?

короче, объясните толком как делали, какое железо, откуда данные тянули, а дальше будем думать.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39051636
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Игорь Бобаккириллkсделал табличку в 1 000 000 000 записей. скормил это hortonworks

вскормил это куда? в sandbox?

вскармливал каким механизмом? sqoop? инструкцию прочел о распараллеливании (параметр -m) ?


кириллkОн подавился.
вот думаю что делать дальше )

он подавился выполняя что? втягивание этих данных? или подавился на этапе последующей выборки?

хард какой? скорость мерял кто-нибудь?

короче, объясните толком как делали, какое железо, откуда данные тянули, а дальше будем думать.


Рассказываю:

в хортоне есть 15 гб свободного места.
Я сгенерировал простой тестовый файл с 2 строками: "дата" , "значение".
положил это на жесткий диск в в хортоне
далее через интерфейс хортона, выбрал этот файл и нажал "обработать"
и усе. крутисля 2 суток пока я его не остановил
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39051650
кириллk
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
[quot Игорь Бобак][quot a_voronin]пропущено...

Для начала начните с того, что поднимите для себя сам хадуп - здесь моя статья
http://ihorbobak.com/index.php/2015/05/06/installing-hadoop-using-ambari-server/
и среды разработки
http://ihorbobak.com/index.php/2015/06/23/installing-development-tools-on-hadoop/
на отдельной виртуалке.


Почитал я статьи )
В целом вообще понятно.
1. начала настроить Network Settings

Enable Networks
Disabling IP Version 6
Disabling Firewall
Disable the THP
Enable NTPD

2. Далее установить веб морду ambari
и в ней уже настраивать hadoop

Я попробую на днях установить следуя вашей инструкии. Пока у меня голая система centos.
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39056909
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Т.е. ты залил на виртуалку с хортоном 15 гигов и он подавился?
...
Рейтинг: 0 / 0
Как двигаться в сторону BigData
    #39056951
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexТ.е. ты залил на виртуалку с хортоном 15 гигов и он подавился?
как в анекдоте: "выпил 3 бутылки водки, закусил печенькой - что-то мне плохо. Наверное отравился печенькой"
...
Рейтинг: 0 / 0
25 сообщений из 149, страница 4 из 6
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как двигаться в сторону BigData
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]