Миграция RDBMS -> Hadoop / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Миграция RDBMS -> Hadoop

21 сообщений из 21, страница 1 из 1

Миграция RDBMS -> Hadoop

#39530739

Vladml

Гость

На форуме была похожая тема с данными от датчиков, но у меня несколько иной вопрос.
Есть подобная система в которой предположим есть данные от датчиков, данных очень много, они не изменяются и постоянно добавляются. Это классическая big-data. Но есть также десяток справочников, названия датчиков, расположение, атрубуты и т.д. - это не big-data а классическая реляционная структура.

Основная задача - это анализ данных.

Вот думаю как эту структуру организовать, я имею ввиду данные от датчиков и справочную информацию как лучше организовать в Hadoop инфраструктуре.

Перенести один к одному таблицы из RDBMS в Hbase и через Hive получить данные SQL запросами,
но это не вариант, ибо те запросы которые RDBMS обрабатываются за секунды, вводят Hive в ступор.
Я понимаю, что это неправильно, т.к. принцип хранения и обработки информации принципиально другой.
Пока единственный вариант который видится - это денормализация справочных данных и хранение их вместе с данными от датчиков.
Фактически будет одна таблица с очень длинными строками.
Есть ли какие-нибудь бест практис по маппингу данных RDBMS -> Hadoop?
В интернете везде классический бесполезный пример с подсчетом слов, а реальных кейсов не находил.

...

Рейтинг:

0 / 0

04.10.2017, 13:39

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39530747

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

VladmlЕсть ли какие-нибудь бест практис по маппингу данных RDBMS -> Hadoop?
В интернете везде классический бесполезный пример с подсчетом слов, а реальных кейсов не находил.

Анализ данных же будет по-рассписанию? Тогда надо перед этим выгрузить данные из SQL в Hadoop. Например m/r job'а лезет в БД (главное ограничить число хостов, а то положить БД не проблема) и тянет снапшот справочника.

...

Рейтинг:

0 / 0

04.10.2017, 13:59

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39530762

Дедушка

Участник

Откуда: Город трёх революций

Сообщения: 4 572

Рейтинг: 0 / 0

Vladml,

при работе на hadoop имхо не стоит использовать способ мышления "таблицами", а придерживаться представления "файлы с данными"

у вас есть файлы с данными справочников (например вы их положите на каждую ноду) и файлы с данными ваших датчиков (например по файлу на каждый час).
далее в мапере вы цепляете данные за справочник и в редьюсере уже получаете "денормализованную" структуру
которую можете использовать сразу для анализа либо сохранить в файл для последующего использования.

...

Рейтинг:

0 / 0

04.10.2017, 14:18

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39530765

servit

Участник

Откуда: г. Кишинёв, Республика Молдова

Сообщения: 3 167

Рейтинг: 0 / 0

Vladml ,

Взгляните на недавно анонсированный новый продукт InterSystems IRIS Data Platform ^en , в котором заявлена поддержка в том числе Apache Spark.

PS: вебинар на русском про InterSystems IRIS: 20826630

...

Рейтинг:

0 / 0

04.10.2017, 14:21

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39530800

Vladml

Гость

ДедушкаVladml,

при работе на hadoop имхо не стоит использовать способ мышления "таблицами", а придерживаться представления "файлы с данными"

у вас есть файлы с данными справочников (например вы их положите на каждую ноду) и файлы с данными ваших датчиков (например по файлу на каждый час).
далее в мапере вы цепляете данные за справочник и в редьюсере уже получаете "денормализованную" структуру
которую можете использовать сразу для анализа либо сохранить в файл для последующего использования.

Ну физически так и есть, т.к. таблицы в Hbase хранятся как файлы.
Вопрос в том что для получения отчета есть запрос с десятком джоинов. В этом случае я так понимаю map должен прочитать все файлы справочников целиком, вытянуть из на редюс и уже на стадии редюс сделать join.
Сейчас такая модель не работает, Hive тупо виснет, разбераюсь почему.

...

Рейтинг:

0 / 0

04.10.2017, 14:53

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39530815

Vladml

Гость

Alexey TominVladmlЕсть ли какие-нибудь бест практис по маппингу данных RDBMS -> Hadoop?
В интернете везде классический бесполезный пример с подсчетом слов, а реальных кейсов не находил.

Анализ данных же будет по-рассписанию? Тогда надо перед этим выгрузить данные из SQL в Hadoop. Например m/r job'а лезет в БД (главное ограничить число хостов, а то положить БД не проблема) и тянет снапшот справочника.

Сами данные уже транслируются в Hbase, с транспортом проблем нет.
Возможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop.

...

Рейтинг:

0 / 0

04.10.2017, 15:07

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39530854

Дедушка

Участник

Откуда: Город трёх революций

Сообщения: 4 572

Рейтинг: 0 / 0

VladmlВозможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop.в таком режиме может работать, например, MSSQL

...

Рейтинг:

0 / 0

04.10.2017, 15:37

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39530866

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

VladmlВозможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop.

Ну... greenplum

...

Рейтинг:

0 / 0

04.10.2017, 15:49

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39531055

Yo.!

Гость

VladmlНу физически так и есть, т.к. таблицы в Hbase хранятся как файлы.
Вопрос в том что для получения отчета есть запрос с десятком джоинов. В этом случае я так понимаю map должен прочитать все файлы справочников целиком, вытянуть из на редюс и уже на стадии редюс сделать join.
Сейчас такая модель не работает, Hive тупо виснет, разбераюсь почему.
а ты случайно не пытаешься на SQL в Hive с энжином map-reduce это провернуть ?
Hive с десятком джинов хрень сгенерит, вместо мап реюдса. тебе надо или руками map-reduce писать или смотреть на всякие Impala, Tez и прочие енжины к Hive. и справочники лучше не в habse, а просто на hdfs класть. они же явно крошечные, врятли датчиков и локаций мульёны.

...

Рейтинг:

0 / 0

04.10.2017, 19:00

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39535584

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

Alexey TominVladmlВозможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop.

Ну... greenplum
угу, только никакого объединения там нет. Хадуп отдельно, гринплам отдельно. Из хадупа их только точечно можно подтягивать в гп.

...

Рейтинг:

0 / 0

12.10.2017, 17:51

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39536245

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

Сколько данных-то? У нас раз в 15 секунд с кучи серверов собираются куча показателей в РСУБД - никаких проблем нет. На таблице-приемнике создан колоночный индекс, так что и объем минимален, и скорость аггрегирующих запросов очень высока.

...

Рейтинг:

0 / 0

14.10.2017, 09:26

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39537089

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Ivan DurakAlexey Tominпропущено...

Ну... greenplum
угу, только никакого объединения там нет.
Есть.

...

Рейтинг:

0 / 0

16.10.2017, 20:47

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39537177

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Ivan DurakAlexey Tominпропущено...

Ну... greenplum
угу, только никакого объединения там нет. Хадуп отдельно, гринплам отдельно. Из хадупа их только точечно можно подтягивать в гп.

Ага. Только GP может решить много проблем, которые рашают хадупом.

...

Рейтинг:

0 / 0

17.10.2017, 07:42

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39540604

шшшш

Гость

ApexIvan Durakпропущено...

угу, только никакого объединения там нет.
Есть.
только HAWK с HIVE не совместим. Это не объединение.
Из обычного хадупа или hive в HAWK придется ПЕРЕГРУЖАТЬ данные!

...

Рейтинг:

0 / 0

23.10.2017, 16:15

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39564790

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

шшшшApexпропущено...

Есть.
только HAWK с HIVE не совместим. Это не объединение.
Из обычного хадупа или hive в HAWK придется ПЕРЕГРУЖАТЬ данные!
При чем здесь совместимость с Hive и нахер она нужна? Hive != Hadoop, если чо.

...

Рейтинг:

0 / 0

06.12.2017, 02:23

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39566176

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

Apexшшшшпропущено...

только HAWK с HIVE не совместим. Это не объединение.
Из обычного хадупа или hive в HAWK придется ПЕРЕГРУЖАТЬ данные!
При чем здесь совместимость с Hive и нахер она нужна? Hive != Hadoop, если чо.
ок. ну и совместимости с хадупом нет.
Залил ты данные в хадупчик и такой говоришь HAWK-у давай, работай.
А он тебе - фиг! Давай-ка еще разок переливай данные уже в HAWK

...

Рейтинг:

0 / 0

07.12.2017, 18:59

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39566270

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Ivan DurakApexпропущено...

При чем здесь совместимость с Hive и нахер она нужна? Hive != Hadoop, если чо.
ок. ну и совместимости с хадупом нет.
Залил ты данные в хадупчик и такой говоришь HAWK-у давай, работай.
А он тебе - фиг! Давай-ка еще разок переливай данные уже в HAWK
PXF includes built-in connectors for accessing data inside HDFS files, Hive tables, and HBase tables. PXF also integrates with HCatalog to query Hive tables directly.

...

Рейтинг:

0 / 0

07.12.2017, 21:48

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39566392

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

ApexIvan Durakпропущено...

ок. ну и совместимости с хадупом нет.
Залил ты данные в хадупчик и такой говоришь HAWK-у давай, работай.
А он тебе - фиг! Давай-ка еще разок переливай данные уже в HAWK
PXF includes built-in connectors for accessing data inside HDFS files, Hive tables, and HBase tables. PXF also integrates with HCatalog to query Hive tables directly.
ну так это конекторы - для переливки. Ты не сможешь использовать всю мощь гринплама, оставив данные в ванильном хадупе с доступом через коннекторы. Придется ПЕРЕЛИВАТЬ в хок!

...

Рейтинг:

0 / 0

08.12.2017, 09:30

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39566433

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Ivan Durakну так это конекторы - для переливки.
Это не коннекторы для "переливки". Чтобы использовать эти данные в запросах, переливать их в родные таблицы гринплама необязательно. Будет ли это так же эффективно, как с родными таблицами? Нет, не будет.

Ivan DurakТы не сможешь использовать всю мощь гринплама, оставив данные в ванильном хадупе с доступом через коннекторы.Придется ПЕРЕЛИВАТЬ в хок!

Спасибо Кэп. Только речь шла не об "использовании всей мощи", а о том, что запрашивать данные можно без перезагрузки в родные таблицы, как это например надо делать в Redshift (пока не появился Redshift Spectrum). HAWQ умеет читать данные с HDFS, умеет читать данные в основных форматах: текст, Avro, Parquet, ORC. Так же он может использовать HCatalog, чтобы не создавать внешние таблицы самому и YARN для управления ресурсами. Довольно неплохая интеграция, на мой взгляд.

...

Рейтинг:

0 / 0

08.12.2017, 10:35

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39566504

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

А без "использовании всей мощи" - нафиг он вообще нужен. Юзай ванильный HIVE и иже с ними.

...

Рейтинг:

0 / 0

08.12.2017, 12:06

| Ответить | Цитировать | Написать

Миграция RDBMS -> Hadoop

#39566948

Apex

Участник

Откуда: Made in USSR

Сообщения: 3 841

Рейтинг: 0 / 0

Ivan DurakА без "использовании всей мощи" - нафиг он вообще нужен. Юзай ванильный HIVE и иже с ними.
Потому что Хайв настолько унылое говно, что даже гринплам без всей его мощи лучше? Не знаю, если потрудишься просмотреть тред, то вопрос так изначально не стоял, вопрос стоял "есть ли интеграция", она есть. По другим вопросам - не ко мне.

...

Рейтинг:

0 / 0

09.12.2017, 10:29

| Ответить | Цитировать | Написать

21 сообщений из 21, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Миграция RDBMS -> Hadoop

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&msg=39566392&tid=1856658]:	0ms
get settings:	10ms
get forum list:	14ms
check forum access:	4ms
check topic access:	4ms
track hit:	41ms
get topic data:	9ms
get forum data:	3ms
get page messages:	57ms
get tp. blocked users:	2ms
others:	13ms

total:	157ms