Как двигаться в сторону BigData / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как двигаться в сторону BigData

25 сообщений из 149, страница 4 из 6

все

Как двигаться в сторону BigData

#38994802

a_voronin

Участник

Откуда: Москва

Сообщения: 4 636

Рейтинг: 0 / 0

Игорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю.

Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит.

Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData.

...

Рейтинг:

0 / 0

29.06.2015, 11:59

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38994894

Winnipuh

Участник

Откуда: Київ

Сообщения: 10 496

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

29.06.2015, 13:11

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38994960

Вжик

Участник

Откуда: Москва

Сообщения: 642

Рейтинг: 0 / 0

BigData начинается от десятков-сотен террабайт и петабайтов, когда субд уже не могут или оперативной памяти уже не достаточно.
Вот тут пример:
https://www.microstrategy.com/Strategy/media/downloads/training-events/microstrategy-world/2014-vegas/MSTR-World-Yahoo!-Taiwan.pdf?ext=.pdf
Там же и инструменты...
Но лучше не "что это такое", а чего в текущем варианте не хватает, может быть она и не нужна - BigData)))

...

Рейтинг:

0 / 0

29.06.2015, 13:44

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38995137

Winnipuh

Участник

Откуда: Київ

Сообщения: 10 496

Рейтинг: 0 / 0

ВжикBigData начинается от десятков-сотен террабайт и петабайтов, когда субд уже не могут или оперативной памяти уже не достаточно.
Вот тут пример:
https://www.microstrategy.com/Strategy/media/downloads/training-events/microstrategy-world/2014-vegas/MSTR-World-Yahoo!-Taiwan.pdf?ext=.pdf
Там же и инструменты...
Но лучше не "что это такое", а чего в текущем варианте не хватает, может быть она и не нужна - BigData)))

имхую, что немножко мутно написано:

1. на сотне террабайтов "субд уже не могут"? с чего бы это?
2. "оперативной памяти уже не достаточно" - кому? сколько? и кто требует памяти? Разве SQL Server или PostgreSQL отказывался работать от недостатка памяти?

...

Рейтинг:

0 / 0

29.06.2015, 15:51

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38995188

haXbat

Участник

Сообщения: 398

Рейтинг: 0 / 0

Winnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?
2. "оперативной памяти уже не достаточно" - кому? сколько? и кто требует памяти? Разве SQL Server или PostgreSQL отказывался работать от недостатка памяти?
"субд уже не могут" = медленно

...

Рейтинг:

0 / 0

29.06.2015, 16:39

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38995201

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Winnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?

Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.

...

Рейтинг:

0 / 0

29.06.2015, 16:57

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38995224

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

Alexey TominWinnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?

Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.
вся бигдата - это хадуп. Не больше и не меньше.

...

Рейтинг:

0 / 0

29.06.2015, 17:13

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38995610

Winnipuh

Участник

Откуда: Київ

Сообщения: 10 496

Рейтинг: 0 / 0

Alexey TominWinnipuh1. на сотне террабайтов "субд уже не могут"? с чего бы это?

Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.

вроде звучит правильно, но ведь здесь "bigdata" - некое волшебное слово, за которым непонятно что стоит.
Если SQL Server (PostgreSQL и т.д.) не справляется на данном хардваре то базу можно сделать распределенной, репликации, шардинг и пр.

...

Рейтинг:

0 / 0

30.06.2015, 10:05

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38995643

Вжик

Участник

Откуда: Москва

Сообщения: 642

Рейтинг: 0 / 0

Репликация и шардинг - это все не о том, вы не получите MPP.
Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики.

...

Рейтинг:

0 / 0

30.06.2015, 10:35

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38995647

Winnipuh

Участник

Откуда: Київ

Сообщения: 10 496

Рейтинг: 0 / 0

ВжикРепликация и шардинг - это все не о том, вы не получите MPP.
Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для
традиционной аналитики.

вот, я и пытаюсь понять что это и с чем его едят.

...

Рейтинг:

0 / 0

30.06.2015, 10:38

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38995781

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

ВжикРепликация и шардинг - это все не о том, вы не получите MPP.
Весь интерес в Big Data - это на основе данных Scalable Machine Learning, иначе это просто хранение и дальнейший ETL для традиционной аналитики.
а че, без Machine Learnin - это не бигдата!?? Вот те раз...

...

Рейтинг:

0 / 0

30.06.2015, 11:59

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#38995947

GVF112GVF

Гость

Ivan DurakAlexey Tominпропущено...

Вопрос не в "могут", а в "могут на доступном по деньгам железе".
Т.е. стоимость субд-сервера, который обсчитает нечто, будет слишком велика, а с помощью bigdata можно то же сделать на кластере в 10, к примеру, раз дешевле (при этом кластер отлично масштабируется- можно к 10 машинам добавит ещё 2-10 машин). Да, при этом затраты на кодирование будут много выше. И никакого он-лайн. Зато в бюджет уложитесь.
вся бигдата - это хадуп. Не больше и не меньше.

Это заблуждение !!!
Big Data - это не только Hadoop.
---------------------------------------------------------------------
IBM’s vision - Big Data is not just Hadoop

“There’s a belief that if you want big data, you need to go out and buy Hadoop and then you’re pretty much set. People shouldn’t get ideas about turning off their relational systems and replacing them with Hadoop…
As we start thinking about big data from the perspective of business needs, we’re realizing that Hadoop isn’t always the best tool for everything we need to do, and that using the wrong tool can sometimes be painful.”

Ken Rudin
Head of Analytics at Facebook

=> Hadoop will be an important part of information architectures for years to come, but it will not take over the world or even replace most traditional technologies
---------------------------------------------------------------------

Kind regards,
Vadim.

...

Рейтинг:

0 / 0

30.06.2015, 13:44

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39010776

Игорь Бобак

Гость

a_voroninИгорь БобакВжик, я в данный момент именно этот курс и прохожу - вот сейчас лабораторную делаю.

Если человек сразу за такой вот курс возьмется с нуля, он не поймет ничего. Чтобы понять как работает RDD в спарке, надо понять схему выполнения mapreduce, и увидеть разницу. Спарк надо учить не с пайтона, а со scala, потому что именно на ней он написан. Есть книжка Holden Karau "Learning Spark", вот если бы я ее до этого не прошел - фиг бы я понял в курсе EdX что на самом деле происходит.

Можете посоветовать человеку, который специализируется на SQL Server, SSAS, что последовательно изучать для постижения BigData.

Для начала начните с того, что поднимите для себя сам хадуп - здесь моя статья
http://ihorbobak.com/index.php/2015/05/06/installing-hadoop-using-ambari-server/
и среды разработки
http://ihorbobak.com/index.php/2015/06/23/installing-development-tools-on-hadoop/
на отдельной виртуалке.

Выучите java, разберитесь хорошо с maven, и реализуйте на IntelliJ IDEA всем известный пример задачи с wordcount
http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html
но вот только не пытайтесь этот код компилировать тем способом, что описано в тьюториале, потому что это маразм. Лучше всего работать в IntelliJ с помощью maven, используя зависимость

<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.0</version>
</dependency>

Но для начала скачайте Hadoop_Fundamentals_LiveLessons_2nd_Edition (есть на пиратских источниках это видео - здесь не имею права приводить), поймите что есть что, поймите как файлы в HDFS запихивать, как их оттуда вынимать и т.д. - базовые вещи. А то даже для реализации wordcount Вам придется файл в HDFS положить как-то.

Потом поставьте перед собою более сложную задачу. Я когда учился, поставил перед собою задачу сделать анализ логов веб-сервера на предмет того, из какой страны сколько раз каждый URL запрашивали в каком месяце. Логи взял у друга с его веб-сервера (да этого добра можно найти валом), потом здесь http://www.ip2nation.com/ вытянул БД на mysql, которая ставит в соответствие диапазон IP адресов стране, из этого добра создал zip файл, содержащий отсортированный список, класс, который по IP адресу отдает страну, этот zip файл через distributed cache пропихнул из кода драйвера (перед тем как делать join на уровне mapper-а).
Пришлось почитать книжку hadoop mapreduce cookbook и т.д.

Вы себе можете и другую задачу поставить, только желательно посложнее чем wordcount.

Тут важно следующее: попробуйте хоть что-то сделать. Вот когда поймете как работает Hadoop.

...

Рейтинг:

0 / 0

19.07.2015, 17:31

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39010781

Игорь Бобак

Гость

Да, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать, потому что это извращенство. Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает.

...

Рейтинг:

0 / 0

19.07.2015, 17:54

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39011161

Winnipuh

Участник

Откуда: Київ

Сообщения: 10 496

Рейтинг: 0 / 0

Игорь БобакДа, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать , потому что это извращенство . Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает.

ну а кроме эмоций где же аргументы?

...

Рейтинг:

0 / 0

20.07.2015, 12:02

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39011276

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

WinnipuhИгорь БобакДа, и еще забыл сказать: забудьте о windows. Вот даже не пытайтесь на винде поднять Hadoop и что-то разрабатывать , потому что это извращенство . Всю разработку, все операции и т.д. вам придется делать в линуксе. Рекомендую CentOS 6.6 (а не ubuntu) - она максимально приближенная к redhat, которая как правило в кластерах и работает.

ну а кроме эмоций где же аргументы?

:)
Версия 1 хадупа в общем и целом не работала под windows.
Вторая- потребует некоторой доработки напильником .
При этом CDH, который стоит рассматривать, про windows не знает .
В целом- оно действительно, не очень, на windows ставить. Не то, чтобы извращение, но могут возникнуть проблемы, по которым никто ничего не подскажет- типа в Микрософт пишите :D

Про "не убунту"- это пусть Бобак рассказывает, что ему приснилось- на убунте LTE очень даже кластеры работают, да и вообще- разница не стоит того, чтобы менять убунту на центос. Вот если поднимать виртуалку- тут да, лучше ставить там то же, что и на серваках.

...

Рейтинг:

0 / 0

20.07.2015, 13:12

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39011442

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

Вообщем поиграл я с hortonworks

сделал табличку в 1 000 000 000 записей. скормил это hortonworks
Он подавился.

вот думаю что делать дальше )

...

Рейтинг:

0 / 0

20.07.2015, 15:05

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39011445

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

кириллk,

Как я понимаю без знаний по java к hadoop лучше не подходить )

...

Рейтинг:

0 / 0

20.07.2015, 15:06

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39011767

Birkhoff

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

кириллkВообщем поиграл я с hortonworks

сделал табличку в 1 000 000 000 записей. скормил это hortonworks
Он подавился.

вот думаю что делать дальше )Звучит как "скормил миллиард записей Ubuntu. Он подавился". И о чем это говорит?

...

Рейтинг:

0 / 0

20.07.2015, 22:48

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39015825

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

Birkhoff,

я про этот продукт
http://hortonworks.com/products/hortonworks-sandbox

...

Рейтинг:

0 / 0

24.07.2015, 23:46

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39016234

Игорь Бобак

Гость

кириллkсделал табличку в 1 000 000 000 записей. скормил это hortonworks

вскормил это куда? в sandbox?

вскармливал каким механизмом? sqoop? инструкцию прочел о распараллеливании (параметр -m) ?

кириллkОн подавился.
вот думаю что делать дальше )

он подавился выполняя что? втягивание этих данных? или подавился на этапе последующей выборки?

хард какой? скорость мерял кто-нибудь?

короче, объясните толком как делали, какое железо, откуда данные тянули, а дальше будем думать.

...

Рейтинг:

0 / 0

26.07.2015, 22:17

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39051636

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

Игорь Бобаккириллkсделал табличку в 1 000 000 000 записей. скормил это hortonworks

вскормил это куда? в sandbox?

вскармливал каким механизмом? sqoop? инструкцию прочел о распараллеливании (параметр -m) ?

кириллkОн подавился.
вот думаю что делать дальше )

он подавился выполняя что? втягивание этих данных? или подавился на этапе последующей выборки?

хард какой? скорость мерял кто-нибудь?

короче, объясните толком как делали, какое железо, откуда данные тянули, а дальше будем думать.

Рассказываю:

в хортоне есть 15 гб свободного места.
Я сгенерировал простой тестовый файл с 2 строками: "дата" , "значение".
положил это на жесткий диск в в хортоне
далее через интерфейс хортона, выбрал этот файл и нажал "обработать"
и усе. крутисля 2 суток пока я его не остановил

...

Рейтинг:

0 / 0

15.09.2015, 11:31

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39051650

кириллk

Участник

Сообщения: 988

Рейтинг: 0 / 0

[quot Игорь Бобак][quot a_voronin]пропущено...

Для начала начните с того, что поднимите для себя сам хадуп - здесь моя статья
http://ihorbobak.com/index.php/2015/05/06/installing-hadoop-using-ambari-server/
и среды разработки
http://ihorbobak.com/index.php/2015/06/23/installing-development-tools-on-hadoop/
на отдельной виртуалке.

Почитал я статьи )
В целом вообще понятно.
1. начала настроить Network Settings

Enable Networks
Disabling IP Version 6
Disabling Firewall
Disable the THP
Enable NTPD

2. Далее установить веб морду ambari
и в ней уже настраивать hadoop

Я попробую на днях установить следуя вашей инструкии. Пока у меня голая система centos.

...

Рейтинг:

0 / 0

15.09.2015, 11:49

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39056909

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Т.е. ты залил на виртуалку с хортоном 15 гигов и он подавился?

...

Рейтинг:

0 / 0

21.09.2015, 05:38

| Ответить | Цитировать | Написать

Как двигаться в сторону BigData

#39056951

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

ApexТ.е. ты залил на виртуалку с хортоном 15 гигов и он подавился?
как в анекдоте: "выпил 3 бутылки водки, закусил печенькой - что-то мне плохо. Наверное отравился печенькой"

...

Рейтинг:

0 / 0

21.09.2015, 09:03

| Ответить | Цитировать | Написать

25 сообщений из 149, страница 4 из 6

все

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Как двигаться в сторону BigData

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&msg=38995224&tid=1856779]:	0ms
get settings:	7ms
get forum list:	11ms
check forum access:	4ms
check topic access:	4ms
track hit:	73ms
get topic data:	10ms
get forum data:	3ms
get page messages:	70ms
get tp. blocked users:	2ms
others:	244ms

total:	428ms