Гость
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Тест данные для hadoop'a / 18 сообщений из 18, страница 1 из 1
17.09.2013, 19:33
    #38399327
KRED
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
Поставил я недавно небольшой hadoop кластер из 4(5тая уже сдохла) нод и пока играюсь с настройками и наблюдаю за капризами хадупа.

Но для дальнейших изисканий требуется большой набор живых данных в виде какихто акссесс логов (хоть того же апача) ... а того что у меня есть - явно не достаточно ...

Подскажите где можно взять такие данные в большом колличестве ?


ЗЫ я уже думал открыть прокси для всех и анализировать получившийся лог файл ... или ещо что ....
ЗЫ2 пожалуйста не предлагайте мне самому генерировать такие логи.
...
Рейтинг: 0 / 0
17.09.2013, 23:00
    #38399446
mesier
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
Я только пока "врубаюсь" в Big Data..
Попадались советы для "потренироваться на кошках", брать дампы с Твиттера с помощью программы curl. В json или xml отдает..
Сам пока не пробовал (у меня и аккаунта-то в твиттере пока нет), но вдруг у вас получится, попробуйте. ))
...
Рейтинг: 0 / 0
26.09.2013, 18:02
    #38408819
KRED
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
Всем привет,

ну вообщем я нашол данные в виде бекапов вики и компании ))) и решил тут о них рассказать для тех кто интересуется.

и так исходные данные:
1. ХМЛ файл: http://dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
2. 3ГБ размер
3. в распакованом состоянии файл занимает 18ГБ места.
4. 31М записей о страничках в вики.
5. Bzip2 сжимает этот файл в 2ГБ
6. 593045627 строк в файле

пример записи.
Код: xml
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
<page>
    <title>AfghanistanHistory</title>
    <ns>0</ns>
    <id>13</id>
    <redirect title="History of Afghanistan" />
    <revision>
      <id>74466652</id>
      <parentid>15898948</parentid>
      <timestamp>2006-09-08T04:15:52Z</timestamp>
      <contributor>
        <username>Rory096</username>
        <id>750223</id>
      </contributor>
      <comment>cat rd</comment>
      <text id="74089594" bytes="57" />
      <sha1>d4tdz2eojqzamnuockahzcbrgd1t9oi</sha1>
      <model>wikitext</model>
      <format>text/x-wiki</format>
    </revision>
    </page>




Железо в варианте 3 машины с Intel(R) Xeon(R) CPU W3530 @ 2.80GHz 12GB RAM и одна с Intel(R) Xeon(R) CPU X5450 @ 3.00GHz. 8GB RAM. диски все сата ... и полная солянка )))


И так гоняем данные локально в шеле ))) :

bashtime bunzip2 -c /mnt/hadoop/data_hadoop/test.xml.bz2 | grep "<title>" |wc
31127663 84114856 1382659030

real 9m32.953s
user 10m16.779s
sys 0m12.737s
Подобная задача решена на всём хадуп кластере за 3 минуты и 40 секунд. (да с паралельной распаковкой).
В случае если файл был в расспакованом состоянии (18ГБ) то обработка заканчивалась за 2м и 30с. (быстрее всего за 2мин и 12 секунд).


ну и на подумать )) файл был предварительно пережат pbzip2 ...
bash time pbzip2 -d -c -p8 /mnt/hadoop/data_hadoop/testpbzip.xml.bz2 | grep "<title>" |wc
31127663 84114856 1382659030

real 2m44.507s
user 21m28.493s
sys 0m19.833s



Может кто предложит что ещо можно сравнить ?
...
Рейтинг: 0 / 0
27.09.2013, 10:23
    #38409335
mesier
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
Спасибо, возьму на заметку.. )
А с Твиттером-то получилось?
...
Рейтинг: 0 / 0
27.09.2013, 14:58
    #38409967
KRED
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
mesier,

Нет с твиттером не сложилось ((( , что то мне в нём не понравилось, толи регистрация , толи АПИ с лимитами/ограничениями ...
...
Рейтинг: 0 / 0
27.09.2013, 17:07
    #38410218
lookat
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
KRED,

Вот вполне представительный датасет:

http://www.bigdatanews.com/profiles/blogs/53-5-billion-clicks-dataset-available-for-benchmarking-and-testin

Удачи
...
Рейтинг: 0 / 0
27.09.2013, 17:28
    #38410248
KRED
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
lookat,

Да согласен , но думаю моего доморощеного кластера не хватит для него :-) , к тому же хочется то что работает в реальном времени )))
...
Рейтинг: 0 / 0
28.11.2013, 23:57
    #38482686
anryal
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
...
Рейтинг: 0 / 0
13.12.2013, 08:32
    #38499472
Apex
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
...
Рейтинг: 0 / 0
26.12.2013, 20:02
    #38513559
alex_101010
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
KREDПоставил я недавно небольшой hadoop кластер из 4(5тая уже сдохла) нод и пока играюсь с настройками и наблюдаю за капризами хадупа.

Но для дальнейших изисканий требуется большой набор живых данных в виде какихто акссесс логов (хоть того же апача) ... а того что у меня есть - явно не достаточно ...

Подскажите где можно взять такие данные в большом колличестве ?


ЗЫ я уже думал открыть прокси для всех и анализировать получившийся лог файл ... или ещо что ....
ЗЫ2 пожалуйста не предлагайте мне самому генерировать такие логи.

подскажите как развернуть кластер на хортонворкс использую http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.8.0/bk_installing_manually_book/content/rpm-chap1.html этот мануал, http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.8.0/bk_installing_manually_book/content/rpm-chap1-9.html тут конкретно не понятный момент
...
Рейтинг: 0 / 0
26.12.2013, 21:01
    #38513600
KRED
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
alex_101010не понятный момент

я ставил родное, скачаное с *.apache.org.
Там всё просто .. но нужно читать официальную доку.

1. создать пользователя.
2. создать дирректории и права в них для пользователя хадуп.
3. (по желанию настроить лимиты для пользователя.)
4. поставить жабу (я взял опенждк7)
5. настроить переменные окружения для пользователя хадуп.
6. настроить ssh на безпасвордный вход между машинами кластера. (не обязательно , но упрощает жизнь)
7. все машины внести в днс зону и настроить что бы всё бегало по днс (не обязательно , но потом проще)
8. запустить.

дальше читать логи (пока не будет работать , так как я точно что то упустил)

когда логи скажут что всё работает ... найти в доке как запустить тесты быстродействия и запустить для тестирования оборудования ( IO* тесты) если за 2 часа и более ничего не сгорит то можно делать что то дальше. :-)
...
Рейтинг: 0 / 0
26.12.2013, 22:27
    #38513652
alex_101010
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
KRED,

спасибо за ответ, а директории и пользователей с группами как создавать руками что ли? если да, то как, писать все в консоле (там не мало) Мне тут предлагают скрипт на создание всего этого, вернее 2 скрпта users.sh и directory.sh и надо их добавить в файл
~/.bash_profile как я понял. что бы типа такого было:
#!/bin/bash
./users.sh
./directories.sh

echo "Create datanode local dir"
mkdir -p $DFS_DATA_DIR;
chown -R $HDFS_USER:$HADOOP_GROUP $DFS_DATA_DIR;
chmod -R 750 $DFS_DATA_DIR;

echo "Create yarn local dir"
mkdir -p $YARN_LOCAL_DIR;
chown -R $YARN_USER:$HADOOP_GROUP $YARN_LOCAL_DIR;
chmod -R 755 $YARN_LOCAL_DIR;

echo "Create yarn local log dir"
mkdir -p $YARN_LOCAL_LOG_DIR;
chown -R $YARN_USER:$HADOOP_GROUP $YARN_LOCAL_LOG_DIR;
chmod -R 755 $YARN_LOCAL_LOG_DIR;
...
Рейтинг: 0 / 0
26.12.2013, 22:29
    #38513653
alex_101010
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
KRED,

добавляю я значит в этот файл в начало эти скрипты, запускаю и ничего не происходит, не ошибок ваще ничего, что не так делаю? пробовал скрипты отдельно запускать просто из консоли тоже ничего не создаеться и не пишет ничего.
...
Рейтинг: 0 / 0
26.12.2013, 23:23
    #38513682
KRED
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
alex_101010KRED,

спасибо за ответ, а директории и пользователей с группами как создавать руками что ли? если да, то как, писать все в консоле (там не мало)


в Документации по установке есть пару нужных Вам команд. Попробуйте установить сначала сингл вариант.

Если для вас такое тяжело, то найдите себе админа/настройщика/консалтера и так далее.

И задайте себе следущие вопросы:
Как вы потом будете своим кластером управлять ?
А как вы собераетесь это всё дело мониторить ? ( надеюсь на самотёк не оставите )


ЗЫ: Для каких задач хотите использовать хадуп ? ( хадуп это только основа ... остальное ставиться под задачу )
...
Рейтинг: 0 / 0
26.12.2013, 23:47
    #38513692
alex_101010
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
KRED,

да я пока что сам не знаю, думаю это будет использоваться в IPC, если такое вообще возможно...Сейчас задача развернуть кластер и все. И делать это надо мне, просить некого.
...
Рейтинг: 0 / 0
Период между сообщениями больше года.
28.12.2016, 05:55
    #39376493
azsx
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
оффтопик
Вот любопытно, у меня 20 млн главных страниц с сайтов скачано - это 140 гб в pg, задача сделать поиск по исходному коду. Сикось накось для себя любимого я поиск сделал, напрямую ищу или через триграммы. Но хочется как у конкурента, у него 220 млн. и выборка на 200К строк выдаётся очень быстро.
1. Это бигдата или это совсем не по теме?
2. Чего бы такого почитать, чтобы научится делать быстрый поиск для многих пользователей? Ну кроме кэширования.
...
Рейтинг: 0 / 0
28.12.2016, 05:57
    #39376494
azsx
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
Эх я, не посмотрел даты постов.
...
Рейтинг: 0 / 0
14.03.2017, 20:29
    #39419300
KRED
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Тест данные для hadoop'a
Может тебе в сторону elastiksearch посмотртеть ?
...
Рейтинг: 0 / 0
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Тест данные для hadoop'a / 18 сообщений из 18, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]