Hadoop / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop

25 сообщений из 138, страница 4 из 6

все

Hadoop

#39236135

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

haXbat,

если не трудно приведи пример своей загрузки.

...

Рейтинг:

0 / 0

15.05.2016, 20:39

| Ответить | Цитировать | Написать

Hadoop

#39236151

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

[quot mishanya3624]первые тесты:
таблица 12 гб
67 лямов записей
обычный запрос:

Код: sql

1.
2.
3.

SELECT *
  FROM tbl_databaselog  
  where CreatedOn LIKE '%2013%'

А можно сделать на mssql openqerry ? и 2 подключения к хейву и импале?

...

Рейтинг:

0 / 0

15.05.2016, 21:25

| Ответить | Цитировать | Написать

Hadoop

#39236175

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

мигель1,

к импале нет опенсорсного драйвера, только для hive
я пытаюсь подцепить hadoop к cognos, там возможен только пока hive драйвер, jdbc odbc пока не получается отдельно настроить.
вывести данные через openqwery 1 раз попробовал не получилось, надо правильную строку подключения для линкед сервера написать, пока нужды нет такой, думаю возможно.

...

Рейтинг:

0 / 0

15.05.2016, 22:52

| Ответить | Цитировать | Написать

Hadoop

#39236330

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

Получилось подцепить hadoop к Cognos BI , данные прилетают, но есть косяк небольшой с blob столбцами, для них нужен индекс, а в хадупе они у меня уже как стринг импортированны, можно ли добавить столбец индекса в хадупе?

...

Рейтинг:

0 / 0

16.05.2016, 10:52

| Ответить | Цитировать | Написать

Hadoop

#39236366

haXbat

Участник

Сообщения: 398

Рейтинг: 0 / 0

mishanya3624haXbat,

если не трудно приведи пример своей загрузки.

Код: powershell

1.
2.

#put data from mysql to hdfs
ssh ${hostname} "mysql -s --batch --quick -e 'select * from ${src_db_name}.${src_table_name}' | pigz -f" | hadoop fs -put - ${hdfs_dir}

На переменную ${hdfs_dir} уже нацелена hive таблица (stored as textfile), которая повторяет структуру исходной таблицы из mysql. Следующим шагом идет конвертация из textfile в parquet, раскладывание данных по партициям, парсинг json-колонок и другие преобразования сырых данных.

...

Рейтинг:

0 / 0

16.05.2016, 11:31

| Ответить | Цитировать | Написать

Hadoop

#39236690

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

haXbat,

спасибо,надо будет попробовать...
Такой вопрос для возможности update delete необходимо создать соответствующую таблицу с определенными свойствами.
create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true');
то есть делаем кластерный индекс с возможностью транзакций таблицы, а вот что на buckets и что зависит от цифры перед ним?

...

Рейтинг:

0 / 0

16.05.2016, 15:58

| Ответить | Цитировать | Написать

Hadoop

#39236741

haXbat

Участник

Сообщения: 398

Рейтинг: 0 / 0

mishanya3624haXbat,

спасибо,надо будет попробовать...
Такой вопрос для возможности update delete необходимо создать соответствующую таблицу с определенными свойствами.
create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true');
то есть делаем кластерный индекс с возможностью транзакций таблицы, а вот что на buckets и что зависит от цифры перед ним?
ACID для hive он же сырой вообще, я вообще не вижу в нем особо смысла пока. Так что те DDL, которые не поддерживает Impala, не использую.

...

Рейтинг:

0 / 0

16.05.2016, 16:31

| Ответить | Цитировать | Написать

Hadoop

#39236746

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

haXbat,

то есть используете только insert?
для работы с impala используете Hue, командной строкой пользуетесь?

...

Рейтинг:

0 / 0

16.05.2016, 16:35

| Ответить | Цитировать | Написать

Hadoop

#39236769

servit

Участник

Откуда: г. Кишинёв, Республика Молдова

Сообщения: 3 167

Рейтинг: 0 / 0

mishanya3624первые тесты:
таблица 12 гб
67 лямов записей
обычный запрос:

Код: sql

1.
2.
3.

SELECT *
  FROM tbl_databaselog  
  where CreatedOn LIKE '%2013%'

MSSQL(сервер не загруженный, тестовый 16 гиг оперы 2 проца) - 3.40 минуты
Hadoop(5нодов):
Hive: 2.28 мин
Impala: 1-2 секунды

Итог поиска: 3,5 ляма записейИнтересно проверить на СУБД Caché с задействованием индексов iFind/iKnow.
В своё время делал тесты для подобного поиска: 15886647 .

...

Рейтинг:

0 / 0

16.05.2016, 16:50

| Ответить | Цитировать | Написать

Hadoop

#39236779

haXbat

Участник

Сообщения: 398

Рейтинг: 0 / 0

mishanya3624haXbat,

то есть используете только insert?
для работы с impala используете Hue, командной строкой пользуетесь?
Insert overwrite + партицирование.
Hue - пользователи/аналитика для кастомных запросов, вся разработка в консоле. В hue баг на баге и багом погоняет.

...

Рейтинг:

0 / 0

16.05.2016, 16:57

| Ответить | Цитировать | Написать

Hadoop

#39236842

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

мигель1,

у меня все получилось, настроил Linked server, могу вытаскивать данные в SSMS.

...

Рейтинг:

0 / 0

16.05.2016, 18:07

| Ответить | Цитировать | Написать

Hadoop

#39236843

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

haXbat,

в импала с командной строки , как заходите?

...

Рейтинг:

0 / 0

16.05.2016, 18:08

| Ответить | Цитировать | Написать

Hadoop

#39236860

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

mishanya3624мигель1,

у меня все получилось, настроил Linked server, могу вытаскивать данные в SSMS.

Это офигенно!
А Вас не затруднит описать , что же Вы делали почти месяц )
Чтобы в итоге все получилось

...

Рейтинг:

0 / 0

16.05.2016, 18:47

| Ответить | Цитировать | Написать

Hadoop

#39236960

haXbat

Участник

Сообщения: 398

Рейтинг: 0 / 0

mishanya3624haXbat,

в импала с командной строки , как заходите?

impala-shell

...

Рейтинг:

0 / 0

16.05.2016, 22:58

| Ответить | Цитировать | Написать

Hadoop

#39237013

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

haXbat,

спасибо!
у вас нет случайно impala drivera&^)

...

Рейтинг:

0 / 0

17.05.2016, 01:44

| Ответить | Цитировать | Написать

Hadoop

#39237016

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

мигель1,

завтра отвечу)

...

Рейтинг:

0 / 0

17.05.2016, 01:45

| Ответить | Цитировать | Написать

Hadoop

#39237653

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

мигель1,

1. Ставим на сервер MSSQL драйвер Hive
2. Создаем ODBC драйвер для Hadoopmaster сервер
3. Создаем LInkedServer
http://sqlmag.com/business-intelligence/integrating-hadoop-sql-server

Очень важно, чтобы таблица в Hadoop была TBLPROPERTIES('transactional'='true')
Все другие будут вылетать в ошибку.

Это одна сторона, но если она TBLPROPERTIES('transactional'='true'), то с ней не сможет работать impala:)
То есть выбор за вами, что важнее.

...

Рейтинг:

0 / 0

17.05.2016, 17:32

| Ответить | Цитировать | Написать

Hadoop

#39237675

мигель1

Участник

Сообщения: 3 349

Рейтинг: 0 / 0

mishanya3624мигель1,

1. Ставим на сервер MSSQL драйвер Hive
2. Создаем ODBC драйвер для Hadoopmaster сервер
3. Создаем LInkedServer
http://sqlmag.com/business-intelligence/integrating-hadoop-sql-server

Очень важно, чтобы таблица в Hadoop была TBLPROPERTIES('transactional'='true')
Все другие будут вылетать в ошибку.

Это одна сторона, но если она TBLPROPERTIES('transactional'='true'), то с ней не сможет работать impala:)
То есть выбор за вами, что важнее.

Я думаю надо еще покапать, странно как то, чтобы или то работало или это...

...

Рейтинг:

0 / 0

17.05.2016, 17:50

| Ответить | Цитировать | Написать

Hadoop

#39237679

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

мигель1,

impala наотрез не хочет работать с ACID...
Если что накопаешь, пиши.

...

Рейтинг:

0 / 0

17.05.2016, 17:53

| Ответить | Цитировать | Написать

Hadoop

#39240294

YuriN.

Гость

Подскажите, пожалуйста, в каком формате лучше держать структурированные данные телеметрии. За день набегает по 5-6 млн. записей (где-то по 7GB сырых данных в месяц). AVRO не понравился, не поддерживает TIMESTAMP (в требованиях время до милисекунды). Данные нужны для аналитики (накопил и агрегируй), но возможно в дальнейшем потребуется стримить из источника. Пока играю с Parquet, но он вроде колоночный.

...

Рейтинг:

0 / 0

20.05.2016, 16:50

| Ответить | Цитировать | Написать

Hadoop

#39241381

ASCRUS

Участник

Откуда: МО Электросталь

Сообщения: 5 642

Рейтинг: 0 / 0

YuriN.Подскажите, пожалуйста, в каком формате лучше держать структурированные данные телеметрии. За день набегает по 5-6 млн. записей (где-то по 7GB сырых данных в месяц). AVRO не понравился, не поддерживает TIMESTAMP (в требованиях время до милисекунды). Данные нужны для аналитики (накопил и агрегируй), но возможно в дальнейшем потребуется стримить из источника. Пока играю с Parquet, но он вроде колоночный.
Можно заюзать HPE Vertica Comminity Edition бесплатный. Поддерживает отказоустойчивый с зеркалированием кластер из 3 серверов + возможность загружать и анализировать средствами SQL до 1 тб сырых данных. С Вашими объемами хватит на много лет. Даже если не делать кластер и крутить БД на одном только сервере, все будет летать и по загрузке данных в реалтайм и по анализу всего массива данных. Вполне хороший вариант для телекомов, реалтайм сборов данных и т.д. Инсталляций в РФ уже полно на базе коммунити в проде компаний различных.

...

Рейтинг:

0 / 0

23.05.2016, 13:41

| Ответить | Цитировать | Написать

Hadoop

#39242622

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

270 лямов записей 50 гб таблица

Код: sql

select * from mytable where id = 'dsfgdfgd-54hf-fbn'

hiveimpala14 минут270 сек
все с командной строки

...

Рейтинг:

0 / 0

24.05.2016, 18:12

| Ответить | Цитировать | Написать

Hadoop

#39242626

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

забыл, вывод 4 строки.

...

Рейтинг:

0 / 0

24.05.2016, 18:15

| Ответить | Цитировать | Написать

Hadoop

#39243694

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

кто-нибудь работает с hadoop с помощью Python скриптов?
Если да, поделитесь парочкой скриптов для наглядности и простое описание к ним.

...

Рейтинг:

0 / 0

26.05.2016, 09:58

| Ответить | Цитировать | Написать

Hadoop

#39243768

mishanya3624

Участник

Сообщения: 802

Рейтинг: 0 / 0

вот еще вопрос:
всего в hive у меня данных на 67 гб
а hdfs кластера загружен на все 265 , это так называемое зеркалирование он делает, для отказоустойчивости?

...

Рейтинг:

0 / 0

26.05.2016, 11:02

| Ответить | Цитировать | Написать

25 сообщений из 138, страница 4 из 6

все

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Hadoop

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&msg=39241381&tid=1856735]:	0ms
get settings:	10ms
get forum list:	13ms
check forum access:	4ms
check topic access:	4ms
track hit:	173ms
get topic data:	8ms
get forum data:	2ms
get page messages:	63ms
get tp. blocked users:	1ms
others:	14ms

total:	292ms