Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Java [игнор отключен] [закрыт для гостей] / Java (big data) / 25 сообщений из 46, страница 1 из 2
08.06.2017, 15:54
    #39468798
Natalia_141277
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Всем привет!
Посоветуйте что-то толковое почитать по Big data (Java), дали тестовое, а я что-то не особо понимаю, с какой стороны к нему подступиться, а сделать надо (ну или хотя бы попробовать).:-)
Опыта с Big data нет.:-(
Спасибо большое!:-)
...
Рейтинг: 0 / 0
08.06.2017, 16:02
    #39468814
Leonid Kudryavtsev
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Биг не биг.... задание то о чем?

Natalia_141277...Big data (Java)...
Печкин_о_Big_DataМинуточку… Больше килограмма! Это посылка получается. Сейчас мы её доставим…

…А если Вы на него бочку катите, то это уже контейнерная перевозка получается. Этим трансагентства занимаются в сельской местности.
...
Рейтинг: 0 / 0
08.06.2017, 16:03
    #39468816
забыл ник
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Расплывчато, что конкретно интересует? Теория, технологии, алгоритмы, способы решения задач? Не хотите светить тестовое задание, хотя бы примерно расскажите о чем оно
...
Рейтинг: 0 / 0
08.06.2017, 16:07
    #39468823
Blazkowicz
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Natalia_141277,

Java тут как бе и не при чем вообще. Надо смотреть о каких технологиях речь вообще. Big Data это и о хранение и об обработке и о распределении и много чего ещё. Изучать много. В рунете много толковых роликов и на ютубе. Но лучше иметь больше конкретики о том что именно нужно.
...
Рейтинг: 0 / 0
08.06.2017, 16:08
    #39468826
Natalia_141277
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Leonid Kudryavtsev,
нужно проанализировать и трансформировать более 500 000 ревью с определенного сайта и найти например 1000 наиболее активных пользователей, там еще пункты есть, но суть в анализе большого количества информации с выборками.
я не спец, может и неправильно категорию определила, но я с big data не работала никогда, потому спрашиваю:-)
...
Рейтинг: 0 / 0
08.06.2017, 16:11
    #39468830
Natalia_141277
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
желательно алгоритмы обработки больших объемов информации и способы решения задач, ну и общая инфа конечно:-)
...
Рейтинг: 0 / 0
08.06.2017, 16:15
    #39468838
Blazkowicz
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Natalia_141277нужно проанализировать и трансформировать более 500 000 ревью с определенного сайта и найти например 1000 наиболее активных пользователей, там еще пункты есть, но суть в анализе большого количества информации с выборками.
я не спец, может и неправильно категорию определила, но я с big data не работала никогда, потому спрашиваю:-)
Это не big data. Начните, наверное с алгоритмов. Fork Join, Map Reduce для начала. Потом немного про кластеризацию почитайте.
А там уже и Apache Spark можно начинать пробовать.
...
Рейтинг: 0 / 0
08.06.2017, 16:20
    #39468846
Natalia_141277
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Blazkowicz, ок, спасибо большое, почитаю:-)
...
Рейтинг: 0 / 0
08.06.2017, 16:28
    #39468859
Natalia_141277
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Blazkowicz,
https://habrahabr.ru/company/dca/blog/267361/
тут почему-то MapReduce идет в связке с Big Data или Вы имели в виду, что тестовое задание - не Big Data?
...
Рейтинг: 0 / 0
08.06.2017, 16:48
    #39468882
Blazkowicz
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Natalia_141277или Вы имели в виду, что тестовое задание - не Big Data?
500 000 документов это не big data. :)
...
Рейтинг: 0 / 0
08.06.2017, 16:51
    #39468884
Natalia_141277
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Blazkowicz,
ok, thanks:-)
...
Рейтинг: 0 / 0
08.06.2017, 16:55
    #39468889
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Natalia_141277, в книжке по Hadoop есть примеры с анализом погодных показателей.

Вроде даже есть ссылки на скачивание самих данных.
...
Рейтинг: 0 / 0
08.06.2017, 17:05
    #39468898
Natalia_141277
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
mayton,

а что за книга?
...
Рейтинг: 0 / 0
08.06.2017, 22:45
    #39469088
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
...
Рейтинг: 0 / 0
09.06.2017, 10:30
    #39469207
Natalia_141277
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
mayton,
спасибо большое!:-)
...
Рейтинг: 0 / 0
09.06.2017, 11:30
    #39469282
grasoff.net
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
BlazkowiczNatalia_141277или Вы имели в виду, что тестовое задание - не Big Data?
500 000 документов это не big data. :)
а есть число конкретное?
например, 500000 -- не биг, а вот 500010 -- это всё, биг
...
Рейтинг: 0 / 0
09.06.2017, 11:48
    #39469305
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
Скорее всего BigData начинается не от количества DataRows/Documents/Tuples.

А от неких других начальных условий. Например:
- данные неструктурированы (грубо говоря нету desc table который даст метаинформацию о том что внутри)
- данные стали историческими (или изменяются настолько редко что этим можно прененбречь)
- есть возможность применить для анализа шаблон "отображение-свёртка" и есть горизонтальное мастабирование
- использование классических реляционных DBMS для анализа этих данных невыгодно по разным причинам
...
Рейтинг: 0 / 0
09.06.2017, 12:03
    #39469330
забыл ник
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
вообще bigdata считается то, что не влазит в Ram одного компьютера, который может позволить себе заказчик
...
Рейтинг: 0 / 0
09.06.2017, 12:09
    #39469347
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
забыл никвообще bigdata считается то, что не влазит в Ram одного компьютера, который может позволить себе заказчик
Это классическая база данных.
...
Рейтинг: 0 / 0
09.06.2017, 12:36
    #39469380
забыл ник
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
maytonзабыл никвообще bigdata считается то, что не влазит в Ram одного компьютера, который может позволить себе заказчик
Это классическая база данных.

И термина bigdata не возникло бы, если бы СУБД можно было неограниченно масштабировать
...
Рейтинг: 0 / 0
09.06.2017, 12:52
    #39469402
Локшин Марк
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
забыл никвообще bigdata считается то, что не влазит в Ram одного компьютера, который может позволить себе заказчик
То, что не влазит в RAM одного компьютера (или кластера), называется "не in-memory БД".
...
Рейтинг: 0 / 0
09.06.2017, 13:00
    #39469416
romskom
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
...
Рейтинг: 0 / 0
09.06.2017, 13:16
    #39469446
azsx
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
авторнужно проанализировать и трансформировать более 500 000 ревью с определенного сайта и найти например 1000 наиболее активных пользователей, там еще пункты есть, но суть в анализе большого количества информации с выборками.
Например, я бы скачал wget'ом http://www.sql.ru/forum/1262503 -1 на 500 000 раз (ну или java скачайте, раз это тест);
затем выделил бы отдельно логины с урлом, даты, число символов в посте и рубрику;
а потом понастроил бы графиков под разные параметры. Примеры графика можно посмотреть в профилях на sql.ru
зы
Но в бигдата я ничо не понимаю, просто суть задания в этом. А чего от вас требуют -- без понятия.
...
Рейтинг: 0 / 0
09.06.2017, 13:28
    #39469459
Petro123
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
azsxА чего от вас требуют -- без понятия.
бигдата, это то же самое как микросервисы.
Никто не знает, но они есть).
...
Рейтинг: 0 / 0
09.06.2017, 14:04
    #39469484
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java (big data)
забыл никmaytonпропущено...

Это классическая база данных.

И термина bigdata не возникло бы, если бы СУБД можно было неограниченно масштабировать
BigData это не СУБД по определению. Я сейчас на вскидку не помню
но по решению 25 Съезда КПСС , СУБД принято считать совокупностью
программных и аппаратных средств нацеленных на

1) Ввод данных
2) Обработку (процессинг)
3) Извлечение отчетов

Я-бы до кучи накинул классификации Брюера (теорема CAP). Согласно ей BigData и DBMS уже
относятся к разным классам систем.
...
Рейтинг: 0 / 0
Форумы / Java [игнор отключен] [закрыт для гостей] / Java (big data) / 25 сообщений из 46, страница 1 из 2
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]