powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Тест данные для hadoop'a
18 сообщений из 18, страница 1 из 1
Тест данные для hadoop'a
    #38399327
KRED
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Поставил я недавно небольшой hadoop кластер из 4(5тая уже сдохла) нод и пока играюсь с настройками и наблюдаю за капризами хадупа.

Но для дальнейших изисканий требуется большой набор живых данных в виде какихто акссесс логов (хоть того же апача) ... а того что у меня есть - явно не достаточно ...

Подскажите где можно взять такие данные в большом колличестве ?


ЗЫ я уже думал открыть прокси для всех и анализировать получившийся лог файл ... или ещо что ....
ЗЫ2 пожалуйста не предлагайте мне самому генерировать такие логи.
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38399446
mesier
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я только пока "врубаюсь" в Big Data..
Попадались советы для "потренироваться на кошках", брать дампы с Твиттера с помощью программы curl. В json или xml отдает..
Сам пока не пробовал (у меня и аккаунта-то в твиттере пока нет), но вдруг у вас получится, попробуйте. ))
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38408819
KRED
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Всем привет,

ну вообщем я нашол данные в виде бекапов вики и компании ))) и решил тут о них рассказать для тех кто интересуется.

и так исходные данные:
1. ХМЛ файл: http://dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
2. 3ГБ размер
3. в распакованом состоянии файл занимает 18ГБ места.
4. 31М записей о страничках в вики.
5. Bzip2 сжимает этот файл в 2ГБ
6. 593045627 строк в файле

пример записи.
Код: xml
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
<page>
    <title>AfghanistanHistory</title>
    <ns>0</ns>
    <id>13</id>
    <redirect title="History of Afghanistan" />
    <revision>
      <id>74466652</id>
      <parentid>15898948</parentid>
      <timestamp>2006-09-08T04:15:52Z</timestamp>
      <contributor>
        <username>Rory096</username>
        <id>750223</id>
      </contributor>
      <comment>cat rd</comment>
      <text id="74089594" bytes="57" />
      <sha1>d4tdz2eojqzamnuockahzcbrgd1t9oi</sha1>
      <model>wikitext</model>
      <format>text/x-wiki</format>
    </revision>
    </page>




Железо в варианте 3 машины с Intel(R) Xeon(R) CPU W3530 @ 2.80GHz 12GB RAM и одна с Intel(R) Xeon(R) CPU X5450 @ 3.00GHz. 8GB RAM. диски все сата ... и полная солянка )))


И так гоняем данные локально в шеле ))) :

bashtime bunzip2 -c /mnt/hadoop/data_hadoop/test.xml.bz2 | grep "<title>" |wc
31127663 84114856 1382659030

real 9m32.953s
user 10m16.779s
sys 0m12.737s
Подобная задача решена на всём хадуп кластере за 3 минуты и 40 секунд. (да с паралельной распаковкой).
В случае если файл был в расспакованом состоянии (18ГБ) то обработка заканчивалась за 2м и 30с. (быстрее всего за 2мин и 12 секунд).


ну и на подумать )) файл был предварительно пережат pbzip2 ...
bash time pbzip2 -d -c -p8 /mnt/hadoop/data_hadoop/testpbzip.xml.bz2 | grep "<title>" |wc
31127663 84114856 1382659030

real 2m44.507s
user 21m28.493s
sys 0m19.833s



Может кто предложит что ещо можно сравнить ?
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38409335
mesier
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Спасибо, возьму на заметку.. )
А с Твиттером-то получилось?
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38409967
KRED
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mesier,

Нет с твиттером не сложилось ((( , что то мне в нём не понравилось, толи регистрация , толи АПИ с лимитами/ограничениями ...
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38410218
lookat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
KRED,

Вот вполне представительный датасет:

http://www.bigdatanews.com/profiles/blogs/53-5-billion-clicks-dataset-available-for-benchmarking-and-testin

Удачи
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38410248
KRED
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
lookat,

Да согласен , но думаю моего доморощеного кластера не хватит для него :-) , к тому же хочется то что работает в реальном времени )))
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38482686
anryal
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38499472
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38513559
alex_101010
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
KREDПоставил я недавно небольшой hadoop кластер из 4(5тая уже сдохла) нод и пока играюсь с настройками и наблюдаю за капризами хадупа.

Но для дальнейших изисканий требуется большой набор живых данных в виде какихто акссесс логов (хоть того же апача) ... а того что у меня есть - явно не достаточно ...

Подскажите где можно взять такие данные в большом колличестве ?


ЗЫ я уже думал открыть прокси для всех и анализировать получившийся лог файл ... или ещо что ....
ЗЫ2 пожалуйста не предлагайте мне самому генерировать такие логи.

подскажите как развернуть кластер на хортонворкс использую http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.8.0/bk_installing_manually_book/content/rpm-chap1.html этот мануал, http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.8.0/bk_installing_manually_book/content/rpm-chap1-9.html тут конкретно не понятный момент
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38513600
KRED
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
alex_101010не понятный момент

я ставил родное, скачаное с *.apache.org.
Там всё просто .. но нужно читать официальную доку.

1. создать пользователя.
2. создать дирректории и права в них для пользователя хадуп.
3. (по желанию настроить лимиты для пользователя.)
4. поставить жабу (я взял опенждк7)
5. настроить переменные окружения для пользователя хадуп.
6. настроить ssh на безпасвордный вход между машинами кластера. (не обязательно , но упрощает жизнь)
7. все машины внести в днс зону и настроить что бы всё бегало по днс (не обязательно , но потом проще)
8. запустить.

дальше читать логи (пока не будет работать , так как я точно что то упустил)

когда логи скажут что всё работает ... найти в доке как запустить тесты быстродействия и запустить для тестирования оборудования ( IO* тесты) если за 2 часа и более ничего не сгорит то можно делать что то дальше. :-)
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38513652
alex_101010
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
KRED,

спасибо за ответ, а директории и пользователей с группами как создавать руками что ли? если да, то как, писать все в консоле (там не мало) Мне тут предлагают скрипт на создание всего этого, вернее 2 скрпта users.sh и directory.sh и надо их добавить в файл
~/.bash_profile как я понял. что бы типа такого было:
#!/bin/bash
./users.sh
./directories.sh

echo "Create datanode local dir"
mkdir -p $DFS_DATA_DIR;
chown -R $HDFS_USER:$HADOOP_GROUP $DFS_DATA_DIR;
chmod -R 750 $DFS_DATA_DIR;

echo "Create yarn local dir"
mkdir -p $YARN_LOCAL_DIR;
chown -R $YARN_USER:$HADOOP_GROUP $YARN_LOCAL_DIR;
chmod -R 755 $YARN_LOCAL_DIR;

echo "Create yarn local log dir"
mkdir -p $YARN_LOCAL_LOG_DIR;
chown -R $YARN_USER:$HADOOP_GROUP $YARN_LOCAL_LOG_DIR;
chmod -R 755 $YARN_LOCAL_LOG_DIR;
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38513653
alex_101010
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
KRED,

добавляю я значит в этот файл в начало эти скрипты, запускаю и ничего не происходит, не ошибок ваще ничего, что не так делаю? пробовал скрипты отдельно запускать просто из консоли тоже ничего не создаеться и не пишет ничего.
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38513682
KRED
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
alex_101010KRED,

спасибо за ответ, а директории и пользователей с группами как создавать руками что ли? если да, то как, писать все в консоле (там не мало)


в Документации по установке есть пару нужных Вам команд. Попробуйте установить сначала сингл вариант.

Если для вас такое тяжело, то найдите себе админа/настройщика/консалтера и так далее.

И задайте себе следущие вопросы:
Как вы потом будете своим кластером управлять ?
А как вы собераетесь это всё дело мониторить ? ( надеюсь на самотёк не оставите )


ЗЫ: Для каких задач хотите использовать хадуп ? ( хадуп это только основа ... остальное ставиться под задачу )
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #38513692
alex_101010
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
KRED,

да я пока что сам не знаю, думаю это будет использоваться в IPC, если такое вообще возможно...Сейчас задача развернуть кластер и все. И делать это надо мне, просить некого.
...
Рейтинг: 0 / 0
Период между сообщениями больше года.
Тест данные для hadoop'a
    #39376493
azsx
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
оффтопик
Вот любопытно, у меня 20 млн главных страниц с сайтов скачано - это 140 гб в pg, задача сделать поиск по исходному коду. Сикось накось для себя любимого я поиск сделал, напрямую ищу или через триграммы. Но хочется как у конкурента, у него 220 млн. и выборка на 200К строк выдаётся очень быстро.
1. Это бигдата или это совсем не по теме?
2. Чего бы такого почитать, чтобы научится делать быстрый поиск для многих пользователей? Ну кроме кэширования.
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #39376494
azsx
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Эх я, не посмотрел даты постов.
...
Рейтинг: 0 / 0
Тест данные для hadoop'a
    #39419300
KRED
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Может тебе в сторону elastiksearch посмотртеть ?
...
Рейтинг: 0 / 0
18 сообщений из 18, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Тест данные для hadoop'a
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]