Тест данные для hadoop'a / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Тест данные для hadoop'a

18 сообщений из 18, страница 1 из 1

Тест данные для hadoop'a

#38399327

KRED

Участник

Откуда: München/Augsburg (Germany)

Сообщения: 611

Рейтинг: 0 / 0

Поставил я недавно небольшой hadoop кластер из 4(5тая уже сдохла) нод и пока играюсь с настройками и наблюдаю за капризами хадупа.

Но для дальнейших изисканий требуется большой набор живых данных в виде какихто акссесс логов (хоть того же апача) ... а того что у меня есть - явно не достаточно ...

Подскажите где можно взять такие данные в большом колличестве ?

ЗЫ я уже думал открыть прокси для всех и анализировать получившийся лог файл ... или ещо что ....
ЗЫ2 пожалуйста не предлагайте мне самому генерировать такие логи.

...

Рейтинг:

0 / 0

17.09.2013, 19:33

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38399446

mesier

Участник

Откуда: Новокузнецк ► СПб

Сообщения: 743

Рейтинг: 0 / 0

Я только пока "врубаюсь" в Big Data..
Попадались советы для "потренироваться на кошках", брать дампы с Твиттера с помощью программы curl. В json или xml отдает..
Сам пока не пробовал (у меня и аккаунта-то в твиттере пока нет), но вдруг у вас получится, попробуйте. ))

...

Рейтинг:

0 / 0

17.09.2013, 23:00

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38408819

KRED

Участник

Откуда: München/Augsburg (Germany)

Сообщения: 611

Рейтинг: 0 / 0

Всем привет,

ну вообщем я нашол данные в виде бекапов вики и компании ))) и решил тут о них рассказать для тех кто интересуется.

и так исходные данные:
1. ХМЛ файл: http://dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
2. 3ГБ размер
3. в распакованом состоянии файл занимает 18ГБ места.
4. 31М записей о страничках в вики.
5. Bzip2 сжимает этот файл в 2ГБ
6. 593045627 строк в файле

пример записи.

Код: xml

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.

<page>
    <title>AfghanistanHistory</title>
    <ns>0</ns>
    <id>13</id>
    <redirect title="History of Afghanistan" />
    <revision>
      <id>74466652</id>
      <parentid>15898948</parentid>
      <timestamp>2006-09-08T04:15:52Z</timestamp>
      <contributor>
        <username>Rory096</username>
        <id>750223</id>
      </contributor>
      <comment>cat rd</comment>
      <text id="74089594" bytes="57" />
      <sha1>d4tdz2eojqzamnuockahzcbrgd1t9oi</sha1>
      <model>wikitext</model>
      <format>text/x-wiki</format>
    </revision>
    </page>

Железо в варианте 3 машины с Intel(R) Xeon(R) CPU W3530 @ 2.80GHz 12GB RAM и одна с Intel(R) Xeon(R) CPU X5450 @ 3.00GHz. 8GB RAM. диски все сата ... и полная солянка )))

И так гоняем данные локально в шеле ))) :

bashtime bunzip2 -c /mnt/hadoop/data_hadoop/test.xml.bz2 | grep "<title>" |wc
31127663 84114856 1382659030

real 9m32.953s
user 10m16.779s
sys 0m12.737s
Подобная задача решена на всём хадуп кластере за 3 минуты и 40 секунд. (да с паралельной распаковкой).
В случае если файл был в расспакованом состоянии (18ГБ) то обработка заканчивалась за 2м и 30с. (быстрее всего за 2мин и 12 секунд).

ну и на подумать )) файл был предварительно пережат pbzip2 ...
bash time pbzip2 -d -c -p8 /mnt/hadoop/data_hadoop/testpbzip.xml.bz2 | grep "<title>" |wc
31127663 84114856 1382659030

real 2m44.507s
user 21m28.493s
sys 0m19.833s

Может кто предложит что ещо можно сравнить ?

...

Рейтинг:

0 / 0

26.09.2013, 18:02

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38409335

mesier

Участник

Откуда: Новокузнецк ► СПб

Сообщения: 743

Рейтинг: 0 / 0

Спасибо, возьму на заметку.. )
А с Твиттером-то получилось?

...

Рейтинг:

0 / 0

27.09.2013, 10:23

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38409967

KRED

Участник

Откуда: München/Augsburg (Germany)

Сообщения: 611

Рейтинг: 0 / 0

mesier,

Нет с твиттером не сложилось ((( , что то мне в нём не понравилось, толи регистрация , толи АПИ с лимитами/ограничениями ...

...

Рейтинг:

0 / 0

27.09.2013, 14:58

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38410218

lookat

Гость

KRED,

Вот вполне представительный датасет:

http://www.bigdatanews.com/profiles/blogs/53-5-billion-clicks-dataset-available-for-benchmarking-and-testin

Удачи

...

Рейтинг:

0 / 0

27.09.2013, 17:07

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38410248

KRED

Участник

Откуда: München/Augsburg (Germany)

Сообщения: 611

Рейтинг: 0 / 0

lookat,

Да согласен , но думаю моего доморощеного кластера не хватит для него :-) , к тому же хочется то что работает в реальном времени )))

...

Рейтинг:

0 / 0

27.09.2013, 17:28

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38482686

anryal

Участник

Сообщения: 105

Рейтинг: 0 / 0

Дата сеты http://www.inf.ed.ac.uk/teaching/courses/dme/html/datasets0405.html

...

Рейтинг:

0 / 0

28.11.2013, 23:57

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38499472

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

http://tpox.sourceforge.net/tpoxdata.htm

...

Рейтинг:

0 / 0

13.12.2013, 08:32

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38513559

alex_101010

Участник

Сообщения: 158

Рейтинг: 0 / 0

KREDПоставил я недавно небольшой hadoop кластер из 4(5тая уже сдохла) нод и пока играюсь с настройками и наблюдаю за капризами хадупа.

Но для дальнейших изисканий требуется большой набор живых данных в виде какихто акссесс логов (хоть того же апача) ... а того что у меня есть - явно не достаточно ...

Подскажите где можно взять такие данные в большом колличестве ?

ЗЫ я уже думал открыть прокси для всех и анализировать получившийся лог файл ... или ещо что ....
ЗЫ2 пожалуйста не предлагайте мне самому генерировать такие логи.

подскажите как развернуть кластер на хортонворкс использую http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.8.0/bk_installing_manually_book/content/rpm-chap1.html этот мануал, http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.8.0/bk_installing_manually_book/content/rpm-chap1-9.html тут конкретно не понятный момент

...

Рейтинг:

0 / 0

26.12.2013, 20:02

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38513600

KRED

Участник

Откуда: München/Augsburg (Germany)

Сообщения: 611

Рейтинг: 0 / 0

alex_101010не понятный момент

я ставил родное, скачаное с *.apache.org.
Там всё просто .. но нужно читать официальную доку.

1. создать пользователя.
2. создать дирректории и права в них для пользователя хадуп.
3. (по желанию настроить лимиты для пользователя.)
4. поставить жабу (я взял опенждк7)
5. настроить переменные окружения для пользователя хадуп.
6. настроить ssh на безпасвордный вход между машинами кластера. (не обязательно , но упрощает жизнь)
7. все машины внести в днс зону и настроить что бы всё бегало по днс (не обязательно , но потом проще)
8. запустить.

дальше читать логи (пока не будет работать , так как я точно что то упустил)

когда логи скажут что всё работает ... найти в доке как запустить тесты быстродействия и запустить для тестирования оборудования ( IO* тесты) если за 2 часа и более ничего не сгорит то можно делать что то дальше. :-)

...

Рейтинг:

0 / 0

26.12.2013, 21:01

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38513652

alex_101010

Участник

Сообщения: 158

Рейтинг: 0 / 0

KRED,

спасибо за ответ, а директории и пользователей с группами как создавать руками что ли? если да, то как, писать все в консоле (там не мало) Мне тут предлагают скрипт на создание всего этого, вернее 2 скрпта users.sh и directory.sh и надо их добавить в файл
~/.bash_profile как я понял. что бы типа такого было:

#!/bin/bash
./users.sh
./directories.sh

echo "Create datanode local dir"
mkdir -p $DFS_DATA_DIR;
chown -R $HDFS_USER:$HADOOP_GROUP $DFS_DATA_DIR;
chmod -R 750 $DFS_DATA_DIR;

echo "Create yarn local dir"
mkdir -p $YARN_LOCAL_DIR;
chown -R $YARN_USER:$HADOOP_GROUP $YARN_LOCAL_DIR;
chmod -R 755 $YARN_LOCAL_DIR;

echo "Create yarn local log dir"
mkdir -p $YARN_LOCAL_LOG_DIR;
chown -R $YARN_USER:$HADOOP_GROUP $YARN_LOCAL_LOG_DIR;
chmod -R 755 $YARN_LOCAL_LOG_DIR;

...

Рейтинг:

0 / 0

26.12.2013, 22:27

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38513653

alex_101010

Участник

Сообщения: 158

Рейтинг: 0 / 0

KRED,

добавляю я значит в этот файл в начало эти скрипты, запускаю и ничего не происходит, не ошибок ваще ничего, что не так делаю? пробовал скрипты отдельно запускать просто из консоли тоже ничего не создаеться и не пишет ничего.

...

Рейтинг:

0 / 0

26.12.2013, 22:29

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38513682

KRED

Участник

Откуда: München/Augsburg (Germany)

Сообщения: 611

Рейтинг: 0 / 0

alex_101010KRED,

спасибо за ответ, а директории и пользователей с группами как создавать руками что ли? если да, то как, писать все в консоле (там не мало)

в Документации по установке есть пару нужных Вам команд. Попробуйте установить сначала сингл вариант.

Если для вас такое тяжело, то найдите себе админа/настройщика/консалтера и так далее.

И задайте себе следущие вопросы:
Как вы потом будете своим кластером управлять ?
А как вы собераетесь это всё дело мониторить ? ( надеюсь на самотёк не оставите )

ЗЫ: Для каких задач хотите использовать хадуп ? ( хадуп это только основа ... остальное ставиться под задачу )

...

Рейтинг:

0 / 0

26.12.2013, 23:23

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#38513692

alex_101010

Участник

Сообщения: 158

Рейтинг: 0 / 0

KRED,

да я пока что сам не знаю, думаю это будет использоваться в IPC, если такое вообще возможно...Сейчас задача развернуть кластер и все. И делать это надо мне, просить некого.

...

Рейтинг:

0 / 0

26.12.2013, 23:47

| Ответить | Цитировать | Написать

Период между сообщениями больше года.

Тест данные для hadoop'a

#39376493

azsx

Участник

Сообщения: 523

Рейтинг: 0 / 0

оффтопик
Вот любопытно, у меня 20 млн главных страниц с сайтов скачано - это 140 гб в pg, задача сделать поиск по исходному коду. Сикось накось для себя любимого я поиск сделал, напрямую ищу или через триграммы. Но хочется как у конкурента, у него 220 млн. и выборка на 200К строк выдаётся очень быстро.
1. Это бигдата или это совсем не по теме?
2. Чего бы такого почитать, чтобы научится делать быстрый поиск для многих пользователей? Ну кроме кэширования.

...

Рейтинг:

0 / 0

28.12.2016, 05:55

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#39376494

azsx

Участник

Сообщения: 523

Рейтинг: 0 / 0

Эх я, не посмотрел даты постов.

...

Рейтинг:

0 / 0

28.12.2016, 05:57

| Ответить | Цитировать | Написать

Тест данные для hadoop'a

#39419300

KRED

Участник

Откуда: München/Augsburg (Germany)

Сообщения: 611

Рейтинг: 0 / 0

Может тебе в сторону elastiksearch посмотртеть ?

...

Рейтинг:

0 / 0

14.03.2017, 20:29

| Ответить | Цитировать | Написать

18 сообщений из 18, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Тест данные для hadoop'a

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&msg=38410248&tid=1856704]:	0ms
get settings:	11ms
get forum list:	14ms
check forum access:	4ms
check topic access:	4ms
track hit:	37ms
get topic data:	13ms
get forum data:	3ms
get page messages:	62ms
get tp. blocked users:	2ms
others:	234ms

total:	384ms