|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
Поставил я недавно небольшой hadoop кластер из 4(5тая уже сдохла) нод и пока играюсь с настройками и наблюдаю за капризами хадупа. Но для дальнейших изисканий требуется большой набор живых данных в виде какихто акссесс логов (хоть того же апача) ... а того что у меня есть - явно не достаточно ... Подскажите где можно взять такие данные в большом колличестве ? ЗЫ я уже думал открыть прокси для всех и анализировать получившийся лог файл ... или ещо что .... ЗЫ2 пожалуйста не предлагайте мне самому генерировать такие логи. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2013, 19:33 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
Я только пока "врубаюсь" в Big Data.. Попадались советы для "потренироваться на кошках", брать дампы с Твиттера с помощью программы curl. В json или xml отдает.. Сам пока не пробовал (у меня и аккаунта-то в твиттере пока нет), но вдруг у вас получится, попробуйте. )) ... |
|||
:
Нравится:
Не нравится:
|
|||
17.09.2013, 23:00 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
Всем привет, ну вообщем я нашол данные в виде бекапов вики и компании ))) и решил тут о них рассказать для тех кто интересуется. и так исходные данные: 1. ХМЛ файл: http://dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz 2. 3ГБ размер 3. в распакованом состоянии файл занимает 18ГБ места. 4. 31М записей о страничках в вики. 5. Bzip2 сжимает этот файл в 2ГБ 6. 593045627 строк в файле пример записи. Код: xml 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
Железо в варианте 3 машины с Intel(R) Xeon(R) CPU W3530 @ 2.80GHz 12GB RAM и одна с Intel(R) Xeon(R) CPU X5450 @ 3.00GHz. 8GB RAM. диски все сата ... и полная солянка ))) И так гоняем данные локально в шеле ))) : bashtime bunzip2 -c /mnt/hadoop/data_hadoop/test.xml.bz2 | grep "<title>" |wc 31127663 84114856 1382659030 real 9m32.953s user 10m16.779s sys 0m12.737s Подобная задача решена на всём хадуп кластере за 3 минуты и 40 секунд. (да с паралельной распаковкой). В случае если файл был в расспакованом состоянии (18ГБ) то обработка заканчивалась за 2м и 30с. (быстрее всего за 2мин и 12 секунд). ну и на подумать )) файл был предварительно пережат pbzip2 ... bash time pbzip2 -d -c -p8 /mnt/hadoop/data_hadoop/testpbzip.xml.bz2 | grep "<title>" |wc 31127663 84114856 1382659030 real 2m44.507s user 21m28.493s sys 0m19.833s Может кто предложит что ещо можно сравнить ? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2013, 18:02 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
Спасибо, возьму на заметку.. ) А с Твиттером-то получилось? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 10:23 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
mesier, Нет с твиттером не сложилось ((( , что то мне в нём не понравилось, толи регистрация , толи АПИ с лимитами/ограничениями ... ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 14:58 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
KRED, Вот вполне представительный датасет: http://www.bigdatanews.com/profiles/blogs/53-5-billion-clicks-dataset-available-for-benchmarking-and-testin Удачи ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 17:07 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
lookat, Да согласен , но думаю моего доморощеного кластера не хватит для него :-) , к тому же хочется то что работает в реальном времени ))) ... |
|||
:
Нравится:
Не нравится:
|
|||
27.09.2013, 17:28 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
KREDПоставил я недавно небольшой hadoop кластер из 4(5тая уже сдохла) нод и пока играюсь с настройками и наблюдаю за капризами хадупа. Но для дальнейших изисканий требуется большой набор живых данных в виде какихто акссесс логов (хоть того же апача) ... а того что у меня есть - явно не достаточно ... Подскажите где можно взять такие данные в большом колличестве ? ЗЫ я уже думал открыть прокси для всех и анализировать получившийся лог файл ... или ещо что .... ЗЫ2 пожалуйста не предлагайте мне самому генерировать такие логи. подскажите как развернуть кластер на хортонворкс использую http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.8.0/bk_installing_manually_book/content/rpm-chap1.html этот мануал, http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.8.0/bk_installing_manually_book/content/rpm-chap1-9.html тут конкретно не понятный момент ... |
|||
:
Нравится:
Не нравится:
|
|||
26.12.2013, 20:02 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
alex_101010не понятный момент я ставил родное, скачаное с *.apache.org. Там всё просто .. но нужно читать официальную доку. 1. создать пользователя. 2. создать дирректории и права в них для пользователя хадуп. 3. (по желанию настроить лимиты для пользователя.) 4. поставить жабу (я взял опенждк7) 5. настроить переменные окружения для пользователя хадуп. 6. настроить ssh на безпасвордный вход между машинами кластера. (не обязательно , но упрощает жизнь) 7. все машины внести в днс зону и настроить что бы всё бегало по днс (не обязательно , но потом проще) 8. запустить. дальше читать логи (пока не будет работать , так как я точно что то упустил) когда логи скажут что всё работает ... найти в доке как запустить тесты быстродействия и запустить для тестирования оборудования ( IO* тесты) если за 2 часа и более ничего не сгорит то можно делать что то дальше. :-) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.12.2013, 21:01 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
KRED, спасибо за ответ, а директории и пользователей с группами как создавать руками что ли? если да, то как, писать все в консоле (там не мало) Мне тут предлагают скрипт на создание всего этого, вернее 2 скрпта users.sh и directory.sh и надо их добавить в файл ~/.bash_profile как я понял. что бы типа такого было: #!/bin/bash ./users.sh ./directories.sh echo "Create datanode local dir" mkdir -p $DFS_DATA_DIR; chown -R $HDFS_USER:$HADOOP_GROUP $DFS_DATA_DIR; chmod -R 750 $DFS_DATA_DIR; echo "Create yarn local dir" mkdir -p $YARN_LOCAL_DIR; chown -R $YARN_USER:$HADOOP_GROUP $YARN_LOCAL_DIR; chmod -R 755 $YARN_LOCAL_DIR; echo "Create yarn local log dir" mkdir -p $YARN_LOCAL_LOG_DIR; chown -R $YARN_USER:$HADOOP_GROUP $YARN_LOCAL_LOG_DIR; chmod -R 755 $YARN_LOCAL_LOG_DIR; ... |
|||
:
Нравится:
Не нравится:
|
|||
26.12.2013, 22:27 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
KRED, добавляю я значит в этот файл в начало эти скрипты, запускаю и ничего не происходит, не ошибок ваще ничего, что не так делаю? пробовал скрипты отдельно запускать просто из консоли тоже ничего не создаеться и не пишет ничего. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.12.2013, 22:29 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
alex_101010KRED, спасибо за ответ, а директории и пользователей с группами как создавать руками что ли? если да, то как, писать все в консоле (там не мало) в Документации по установке есть пару нужных Вам команд. Попробуйте установить сначала сингл вариант. Если для вас такое тяжело, то найдите себе админа/настройщика/консалтера и так далее. И задайте себе следущие вопросы: Как вы потом будете своим кластером управлять ? А как вы собераетесь это всё дело мониторить ? ( надеюсь на самотёк не оставите ) ЗЫ: Для каких задач хотите использовать хадуп ? ( хадуп это только основа ... остальное ставиться под задачу ) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.12.2013, 23:23 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
KRED, да я пока что сам не знаю, думаю это будет использоваться в IPC, если такое вообще возможно...Сейчас задача развернуть кластер и все. И делать это надо мне, просить некого. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.12.2013, 23:47 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
оффтопик Вот любопытно, у меня 20 млн главных страниц с сайтов скачано - это 140 гб в pg, задача сделать поиск по исходному коду. Сикось накось для себя любимого я поиск сделал, напрямую ищу или через триграммы. Но хочется как у конкурента, у него 220 млн. и выборка на 200К строк выдаётся очень быстро. 1. Это бигдата или это совсем не по теме? 2. Чего бы такого почитать, чтобы научится делать быстрый поиск для многих пользователей? Ну кроме кэширования. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2016, 05:55 |
|
Тест данные для hadoop'a
|
|||
---|---|---|---|
#18+
Эх я, не посмотрел даты постов. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.12.2016, 05:57 |
|
|
start [/forum/topic.php?fid=48&msg=38410248&tid=1856704]: |
0ms |
get settings: |
10ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
30ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
50ms |
get tp. blocked users: |
1ms |
others: | 14ms |
total: | 138ms |
0 / 0 |