powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Java [игнор отключен] [закрыт для гостей] / Java (big data)
46 сообщений из 46, показаны все 2 страниц
Java (big data)
    #39468798
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Всем привет!
Посоветуйте что-то толковое почитать по Big data (Java), дали тестовое, а я что-то не особо понимаю, с какой стороны к нему подступиться, а сделать надо (ну или хотя бы попробовать).:-)
Опыта с Big data нет.:-(
Спасибо большое!:-)
...
Рейтинг: 0 / 0
Java (big data)
    #39468814
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Биг не биг.... задание то о чем?

Natalia_141277...Big data (Java)...
Печкин_о_Big_DataМинуточку… Больше килограмма! Это посылка получается. Сейчас мы её доставим…

…А если Вы на него бочку катите, то это уже контейнерная перевозка получается. Этим трансагентства занимаются в сельской местности.
...
Рейтинг: 0 / 0
Java (big data)
    #39468816
забыл ник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Расплывчато, что конкретно интересует? Теория, технологии, алгоритмы, способы решения задач? Не хотите светить тестовое задание, хотя бы примерно расскажите о чем оно
...
Рейтинг: 0 / 0
Java (big data)
    #39468823
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Natalia_141277,

Java тут как бе и не при чем вообще. Надо смотреть о каких технологиях речь вообще. Big Data это и о хранение и об обработке и о распределении и много чего ещё. Изучать много. В рунете много толковых роликов и на ютубе. Но лучше иметь больше конкретики о том что именно нужно.
...
Рейтинг: 0 / 0
Java (big data)
    #39468826
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid Kudryavtsev,
нужно проанализировать и трансформировать более 500 000 ревью с определенного сайта и найти например 1000 наиболее активных пользователей, там еще пункты есть, но суть в анализе большого количества информации с выборками.
я не спец, может и неправильно категорию определила, но я с big data не работала никогда, потому спрашиваю:-)
...
Рейтинг: 0 / 0
Java (big data)
    #39468830
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
желательно алгоритмы обработки больших объемов информации и способы решения задач, ну и общая инфа конечно:-)
...
Рейтинг: 0 / 0
Java (big data)
    #39468838
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Natalia_141277нужно проанализировать и трансформировать более 500 000 ревью с определенного сайта и найти например 1000 наиболее активных пользователей, там еще пункты есть, но суть в анализе большого количества информации с выборками.
я не спец, может и неправильно категорию определила, но я с big data не работала никогда, потому спрашиваю:-)
Это не big data. Начните, наверное с алгоритмов. Fork Join, Map Reduce для начала. Потом немного про кластеризацию почитайте.
А там уже и Apache Spark можно начинать пробовать.
...
Рейтинг: 0 / 0
Java (big data)
    #39468846
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Blazkowicz, ок, спасибо большое, почитаю:-)
...
Рейтинг: 0 / 0
Java (big data)
    #39468859
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Blazkowicz,
https://habrahabr.ru/company/dca/blog/267361/
тут почему-то MapReduce идет в связке с Big Data или Вы имели в виду, что тестовое задание - не Big Data?
...
Рейтинг: 0 / 0
Java (big data)
    #39468882
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Natalia_141277или Вы имели в виду, что тестовое задание - не Big Data?
500 000 документов это не big data. :)
...
Рейтинг: 0 / 0
Java (big data)
    #39468884
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Blazkowicz,
ok, thanks:-)
...
Рейтинг: 0 / 0
Java (big data)
    #39468889
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Natalia_141277, в книжке по Hadoop есть примеры с анализом погодных показателей.

Вроде даже есть ссылки на скачивание самих данных.
...
Рейтинг: 0 / 0
Java (big data)
    #39468898
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
mayton,

а что за книга?
...
Рейтинг: 0 / 0
Java (big data)
    #39469088
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Java (big data)
    #39469207
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
mayton,
спасибо большое!:-)
...
Рейтинг: 0 / 0
Java (big data)
    #39469282
Фотография grasoff.net
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BlazkowiczNatalia_141277или Вы имели в виду, что тестовое задание - не Big Data?
500 000 документов это не big data. :)
а есть число конкретное?
например, 500000 -- не биг, а вот 500010 -- это всё, биг
...
Рейтинг: 0 / 0
Java (big data)
    #39469305
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Скорее всего BigData начинается не от количества DataRows/Documents/Tuples.

А от неких других начальных условий. Например:
- данные неструктурированы (грубо говоря нету desc table который даст метаинформацию о том что внутри)
- данные стали историческими (или изменяются настолько редко что этим можно прененбречь)
- есть возможность применить для анализа шаблон "отображение-свёртка" и есть горизонтальное мастабирование
- использование классических реляционных DBMS для анализа этих данных невыгодно по разным причинам
...
Рейтинг: 0 / 0
Java (big data)
    #39469330
забыл ник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вообще bigdata считается то, что не влазит в Ram одного компьютера, который может позволить себе заказчик
...
Рейтинг: 0 / 0
Java (big data)
    #39469347
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
забыл никвообще bigdata считается то, что не влазит в Ram одного компьютера, который может позволить себе заказчик
Это классическая база данных.
...
Рейтинг: 0 / 0
Java (big data)
    #39469380
забыл ник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonзабыл никвообще bigdata считается то, что не влазит в Ram одного компьютера, который может позволить себе заказчик
Это классическая база данных.

И термина bigdata не возникло бы, если бы СУБД можно было неограниченно масштабировать
...
Рейтинг: 0 / 0
Java (big data)
    #39469402
Локшин Марк
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
забыл никвообще bigdata считается то, что не влазит в Ram одного компьютера, который может позволить себе заказчик
То, что не влазит в RAM одного компьютера (или кластера), называется "не in-memory БД".
...
Рейтинг: 0 / 0
Java (big data)
    #39469416
romskom
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Java (big data)
    #39469446
azsx
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторнужно проанализировать и трансформировать более 500 000 ревью с определенного сайта и найти например 1000 наиболее активных пользователей, там еще пункты есть, но суть в анализе большого количества информации с выборками.
Например, я бы скачал wget'ом http://www.sql.ru/forum/1262503 -1 на 500 000 раз (ну или java скачайте, раз это тест);
затем выделил бы отдельно логины с урлом, даты, число символов в посте и рубрику;
а потом понастроил бы графиков под разные параметры. Примеры графика можно посмотреть в профилях на sql.ru
зы
Но в бигдата я ничо не понимаю, просто суть задания в этом. А чего от вас требуют -- без понятия.
...
Рейтинг: 0 / 0
Java (big data)
    #39469459
Фотография Petro123
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
azsxА чего от вас требуют -- без понятия.
бигдата, это то же самое как микросервисы.
Никто не знает, но они есть).
...
Рейтинг: 0 / 0
Java (big data)
    #39469484
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
забыл никmaytonпропущено...

Это классическая база данных.

И термина bigdata не возникло бы, если бы СУБД можно было неограниченно масштабировать
BigData это не СУБД по определению. Я сейчас на вскидку не помню
но по решению 25 Съезда КПСС , СУБД принято считать совокупностью
программных и аппаратных средств нацеленных на

1) Ввод данных
2) Обработку (процессинг)
3) Извлечение отчетов

Я-бы до кучи накинул классификации Брюера (теорема CAP). Согласно ей BigData и DBMS уже
относятся к разным классам систем.
...
Рейтинг: 0 / 0
Java (big data)
    #39469529
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Natalia_141277Leonid Kudryavtsev,
нужно проанализировать и трансформировать более 500 000 ревью с определенного сайта и найти например 1000 наиболее активных пользователей, там еще пункты есть, но суть в анализе большого количества информации с выборками.
я не спец, может и неправильно категорию определила, но я с big data не работала никогда, потому спрашиваю:-)
В двухтысячные был популярен Мем про грабеж корованов . Навеяло...

В вашем задании просто надо сесть с постановщиком (аналитиком) и придираясь к каждому слову (к каждому!) расписать
ТЗ хотя-бы страниц на 2-3. После этого станет понятно что надо делать. Если постановщик сам неосилит подобное
написать то такое ТЗ вообще не стоит делать ибо оно ниочем. Нельзя трансформировать не зная как. Нельзя находить
активных не имея критерия. И нельзя формализовать даже review. Что это? Документ? Кортеж? Поле?
...
Рейтинг: 0 / 0
Java (big data)
    #39470477
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
mayton,
Apache Spark посоветовали использовать, сейчас разбираюсь с ним, это тестовое сделать уже не успею, но просто интересно разобраться, что и к чему на будущее.
Это совсем другое направление, может быть тоже пригодится.
...
Рейтинг: 0 / 0
Java (big data)
    #39470497
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apache Spark - хороший выбор. Особенно если будет позиция с требованиями.

А по Хадуп я-бы советовал почитать. Общие знания. Особенно в части дисковой подсистемы.
Полезно знать как вообще устроен HDFS и как это все работает в стеке. Особенно
если есть кейс когда Spark стоит поверх HDFS. Хотя здесь я невкурсе. Могут быть варианты.

Ну вобщем Хадуп - это ассемблер в мире бигдата.
...
Рейтинг: 0 / 0
Java (big data)
    #39470500
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
mayton,
спасибо большое!:-)
...
Рейтинг: 0 / 0
Java (big data)
    #39470672
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Petro123azsxА чего от вас требуют -- без понятия.
бигдата, это то же самое как микросервисы.
Никто не знает, но они есть).

Кто не знает- сам виноват.
Бигдата- это когда оборудование (железо, ПО) для традиционных способов обработки (РСУБД) стоят слишком дорого для вас.
Что для одних- бигдата, для других- так, мелочь.
По сути- бигдата это _проблема_ - данные есть, а обработать их сил уже нет. Приходится извращаться- хадуп и т.п.
...
Рейтинг: 0 / 0
Java (big data)
    #39470711
Фотография Petro123
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominКто не знает- сам виноват.
Я вам о факте, а вы об обвинениях).
Термин вольно трактуется всеми участниками треда.
А участники - профи.
Я лучше сам термин обвиню)).
...
Рейтинг: 0 / 0
Java (big data)
    #39470719
dimonz80
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Natalia_141277Всем привет!
Посоветуйте что-то толковое почитать по Big data (Java), дали тестовое, а я что-то не особо понимаю, с какой стороны к нему подступиться, а сделать надо (ну или хотя бы попробовать).:-)
Опыта с Big data нет.:-(
Спасибо большое!:-)



Доступно и доходчиво про BigData, MapReduce etc скачать бесплатно без регистрации и СМС
...
Рейтинг: 0 / 0
Java (big data)
    #39470756
Фотография Petro123
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dimonz80,
хорошая статья))
авторрешение "бабушка, вручную записывающая операции в бумажный блокнот"
))
...
Рейтинг: 0 / 0
Java (big data)
    #39471448
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
azsx,

в том-то и дело, что суть задания не в этом:-)
я в общих чертах написала, некорректно расписывать тех.задание полностью, я думаю
там выборки делать нужно, причем тут графики?:-)
потом выбранные данные трансформировать, например, перевести с помощью Google Translate на др.языки, вывести в формате Json результат
много еще чего:-)
...
Рейтинг: 0 / 0
Java (big data)
    #39471770
Фотография Usman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Java (big data)
    #39471960
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Usman,
thanks a lot!:-)
...
Рейтинг: 0 / 0
Java (big data)
    #39478659
For All
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Natalia_141277Опыта с Big data нет.:-(
Самое оно https://hazelcast.org/mastering-hazelcast/
...
Рейтинг: 0 / 0
Java (big data)
    #39481196
rfq
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сначала надо попытаться все данные загрузить в реляционную СУБД и затем извлечь необходимую информацию с помощью SQL запроса. Если получится, то это будет самое лучшее решение в плане дальнейшего сопровождения.
...
Рейтинг: 0 / 0
Java (big data)
    #39482855
andreykaT
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Natalia_141277azsx,

в том-то и дело, что суть задания не в этом:-)
я в общих чертах написала, некорректно расписывать тех.задание полностью, я думаю
там выборки делать нужно, причем тут графики?:-)
потом выбранные данные трансформировать, например, перевести с помощью Google Translate на др.языки, вывести в формате Json результат
много еще чего:-)
фигасе у вас тестовое задание ))) мне как то бигдатое тестовое задание дали - задачку на спарке+кафке+редиске написать грабер строчек, который из нее выдирал предложения буквы пробелы и т.п. я сделал эту херь, хотя в первый раз в глаза это увидал. но меня не взяли. т.к. как потом оказалось, всё надо было сделать в один проход, а я сделал в три (для букв, для слов и для предложений). ну и ладно. мне сказали "сделай шоп работало" - я сделал шоп работало. а потом выяснилось что сделать надо было "так" и я типа должен был сам догадаться.
...
Рейтинг: 0 / 0
Java (big data)
    #39482856
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
andreykaT, это лишний раз подчеркивает наше убеждение в том что тестовые задания
- это бесполезная трата времени.
...
Рейтинг: 0 / 0
Java (big data)
    #39485581
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
andreykaTNatalia_141277azsx,

в том-то и дело, что суть задания не в этом:-)
я в общих чертах написала, некорректно расписывать тех.задание полностью, я думаю
там выборки делать нужно, причем тут графики?:-)
потом выбранные данные трансформировать, например, перевести с помощью Google Translate на др.языки, вывести в формате Json результат
много еще чего:-)
фигасе у вас тестовое задание ))) мне как то бигдатое тестовое задание дали - задачку на спарке+кафке+редиске написать грабер строчек, который из нее выдирал предложения буквы пробелы и т.п. я сделал эту херь, хотя в первый раз в глаза это увидал. но меня не взяли. т.к. как потом оказалось, всё надо было сделать в один проход, а я сделал в три (для букв, для слов и для предложений). ну и ладно. мне сказали "сделай шоп работало" - я сделал шоп работало. а потом выяснилось что сделать надо было "так" и я типа должен был сам догадаться.

я вот тоже об этом подумала:-)
тем более на джуна:-)
...
Рейтинг: 0 / 0
Java (big data)
    #39485632
andreykaT
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
не... ну разобраться то в этом всем ума много не надо, когда гуглить умеешь. вопросы появляются по нюансам, которые ты сам навряд-ли догадаешься, если ранее не сталкивался, или кто не подсказал как надо "правильно".

ну или тотальный штурм документации (если время есть). а на тз его, как правило, нет. и один фиг практика-практика-практика.
...
Рейтинг: 0 / 0
Java (big data)
    #39485652
Natalia_141277
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
andreykaTне... ну разобраться то в этом всем ума много не надо, когда гуглить умеешь. вопросы появляются по нюансам, которые ты сам навряд-ли догадаешься, если ранее не сталкивался, или кто не подсказал как надо "правильно".

ну или тотальный штурм документации (если время есть). а на тз его, как правило, нет. и один фиг практика-практика-практика.

если впервые сталкиваешься, разбирать нужно с азов, просто нагуглить не всегда помогает
...
Рейтинг: 0 / 0
Java (big data)
    #39486043
andreykaT
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...ну если гуглить умеете. то труда не составит особо. разумеется, речь идет о более-менее программисте с опытом )) вопрос что там на выходе у вас получится. у меня вот получилось то, что они не ожидали. да и пофиг на них. Зато со мной в компетишене учавствовала девушка. - вот ее код оказался просто картинкой а я так - эникейщик от джавы.
...
Рейтинг: 0 / 0
Java (big data)
    #39520340
Alice12
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Если интересует JAVA советую обратиться в Forte Group Services
...
Рейтинг: 0 / 0
Java (big data)
    #39660778
Jack N
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
У EffectiveSoft большая эксертиза в Java и Bigdata, - это на случай, если нужно проконсультироваться с грамотными джавистами.
...
Рейтинг: 0 / 0
46 сообщений из 46, показаны все 2 страниц
Форумы / Java [игнор отключен] [закрыт для гостей] / Java (big data)
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]