powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Миграция RDBMS -> Hadoop
21 сообщений из 21, страница 1 из 1
Миграция RDBMS -> Hadoop
    #39530739
Vladml
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
На форуме была похожая тема с данными от датчиков, но у меня несколько иной вопрос.
Есть подобная система в которой предположим есть данные от датчиков, данных очень много, они не изменяются и постоянно добавляются. Это классическая big-data. Но есть также десяток справочников, названия датчиков, расположение, атрубуты и т.д. - это не big-data а классическая реляционная структура.

Основная задача - это анализ данных.

Вот думаю как эту структуру организовать, я имею ввиду данные от датчиков и справочную информацию как лучше организовать в Hadoop инфраструктуре.

Перенести один к одному таблицы из RDBMS в Hbase и через Hive получить данные SQL запросами,
но это не вариант, ибо те запросы которые RDBMS обрабатываются за секунды, вводят Hive в ступор.
Я понимаю, что это неправильно, т.к. принцип хранения и обработки информации принципиально другой.
Пока единственный вариант который видится - это денормализация справочных данных и хранение их вместе с данными от датчиков.
Фактически будет одна таблица с очень длинными строками.
Есть ли какие-нибудь бест практис по маппингу данных RDBMS -> Hadoop?
В интернете везде классический бесполезный пример с подсчетом слов, а реальных кейсов не находил.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39530747
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VladmlЕсть ли какие-нибудь бест практис по маппингу данных RDBMS -> Hadoop?
В интернете везде классический бесполезный пример с подсчетом слов, а реальных кейсов не находил.

Анализ данных же будет по-рассписанию? Тогда надо перед этим выгрузить данные из SQL в Hadoop. Например m/r job'а лезет в БД (главное ограничить число хостов, а то положить БД не проблема) и тянет снапшот справочника.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39530762
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vladml,

при работе на hadoop имхо не стоит использовать способ мышления "таблицами", а придерживаться представления "файлы с данными"

у вас есть файлы с данными справочников (например вы их положите на каждую ноду) и файлы с данными ваших датчиков (например по файлу на каждый час).
далее в мапере вы цепляете данные за справочник и в редьюсере уже получаете "денормализованную" структуру
которую можете использовать сразу для анализа либо сохранить в файл для последующего использования.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39530765
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vladml ,

Взгляните на недавно анонсированный новый продукт InterSystems IRIS Data Platform en , в котором заявлена поддержка в том числе Apache Spark.

PS: вебинар на русском про InterSystems IRIS: 20826630
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39530800
Vladml
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ДедушкаVladml,

при работе на hadoop имхо не стоит использовать способ мышления "таблицами", а придерживаться представления "файлы с данными"

у вас есть файлы с данными справочников (например вы их положите на каждую ноду) и файлы с данными ваших датчиков (например по файлу на каждый час).
далее в мапере вы цепляете данные за справочник и в редьюсере уже получаете "денормализованную" структуру
которую можете использовать сразу для анализа либо сохранить в файл для последующего использования.

Ну физически так и есть, т.к. таблицы в Hbase хранятся как файлы.
Вопрос в том что для получения отчета есть запрос с десятком джоинов. В этом случае я так понимаю map должен прочитать все файлы справочников целиком, вытянуть из на редюс и уже на стадии редюс сделать join.
Сейчас такая модель не работает, Hive тупо виснет, разбераюсь почему.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39530815
Vladml
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Alexey TominVladmlЕсть ли какие-нибудь бест практис по маппингу данных RDBMS -> Hadoop?
В интернете везде классический бесполезный пример с подсчетом слов, а реальных кейсов не находил.

Анализ данных же будет по-рассписанию? Тогда надо перед этим выгрузить данные из SQL в Hadoop. Например m/r job'а лезет в БД (главное ограничить число хостов, а то положить БД не проблема) и тянет снапшот справочника.

Сами данные уже транслируются в Hbase, с транспортом проблем нет.
Возможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39530854
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VladmlВозможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop.в таком режиме может работать, например, MSSQL
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39530866
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VladmlВозможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop.

Ну... greenplum
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39531055
Yo.!
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
VladmlНу физически так и есть, т.к. таблицы в Hbase хранятся как файлы.
Вопрос в том что для получения отчета есть запрос с десятком джоинов. В этом случае я так понимаю map должен прочитать все файлы справочников целиком, вытянуть из на редюс и уже на стадии редюс сделать join.
Сейчас такая модель не работает, Hive тупо виснет, разбераюсь почему.
а ты случайно не пытаешься на SQL в Hive с энжином map-reduce это провернуть ?
Hive с десятком джинов хрень сгенерит, вместо мап реюдса. тебе надо или руками map-reduce писать или смотреть на всякие Impala, Tez и прочие енжины к Hive. и справочники лучше не в habse, а просто на hdfs класть. они же явно крошечные, врятли датчиков и локаций мульёны.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39535584
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominVladmlВозможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop.

Ну... greenplum
угу, только никакого объединения там нет. Хадуп отдельно, гринплам отдельно. Из хадупа их только точечно можно подтягивать в гп.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39536245
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сколько данных-то? У нас раз в 15 секунд с кучи серверов собираются куча показателей в РСУБД - никаких проблем нет. На таблице-приемнике создан колоночный индекс, так что и объем минимален, и скорость аггрегирующих запросов очень высока.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39537089
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan DurakAlexey Tominпропущено...


Ну... greenplum
угу, только никакого объединения там нет.
Есть.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39537177
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan DurakAlexey Tominпропущено...


Ну... greenplum
угу, только никакого объединения там нет. Хадуп отдельно, гринплам отдельно. Из хадупа их только точечно можно подтягивать в гп.

Ага. Только GP может решить много проблем, которые рашают хадупом.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39540604
шшшш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ApexIvan Durakпропущено...

угу, только никакого объединения там нет.
Есть.
только HAWK с HIVE не совместим. Это не объединение.
Из обычного хадупа или hive в HAWK придется ПЕРЕГРУЖАТЬ данные!
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39564790
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
шшшшApexпропущено...

Есть.
только HAWK с HIVE не совместим. Это не объединение.
Из обычного хадупа или hive в HAWK придется ПЕРЕГРУЖАТЬ данные!
При чем здесь совместимость с Hive и нахер она нужна? Hive != Hadoop, если чо.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39566176
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apexшшшшпропущено...

только HAWK с HIVE не совместим. Это не объединение.
Из обычного хадупа или hive в HAWK придется ПЕРЕГРУЖАТЬ данные!
При чем здесь совместимость с Hive и нахер она нужна? Hive != Hadoop, если чо.
ок. ну и совместимости с хадупом нет.
Залил ты данные в хадупчик и такой говоришь HAWK-у давай, работай.
А он тебе - фиг! Давай-ка еще разок переливай данные уже в HAWK
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39566270
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan DurakApexпропущено...

При чем здесь совместимость с Hive и нахер она нужна? Hive != Hadoop, если чо.
ок. ну и совместимости с хадупом нет.
Залил ты данные в хадупчик и такой говоришь HAWK-у давай, работай.
А он тебе - фиг! Давай-ка еще разок переливай данные уже в HAWK
PXF includes built-in connectors for accessing data inside HDFS files, Hive tables, and HBase tables. PXF also integrates with HCatalog to query Hive tables directly.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39566392
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ApexIvan Durakпропущено...

ок. ну и совместимости с хадупом нет.
Залил ты данные в хадупчик и такой говоришь HAWK-у давай, работай.
А он тебе - фиг! Давай-ка еще разок переливай данные уже в HAWK
PXF includes built-in connectors for accessing data inside HDFS files, Hive tables, and HBase tables. PXF also integrates with HCatalog to query Hive tables directly.
ну так это конекторы - для переливки. Ты не сможешь использовать всю мощь гринплама, оставив данные в ванильном хадупе с доступом через коннекторы. Придется ПЕРЕЛИВАТЬ в хок!
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39566433
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durakну так это конекторы - для переливки.
Это не коннекторы для "переливки". Чтобы использовать эти данные в запросах, переливать их в родные таблицы гринплама необязательно. Будет ли это так же эффективно, как с родными таблицами? Нет, не будет.

Ivan DurakТы не сможешь использовать всю мощь гринплама, оставив данные в ванильном хадупе с доступом через коннекторы.Придется ПЕРЕЛИВАТЬ в хок!

Спасибо Кэп. Только речь шла не об "использовании всей мощи", а о том, что запрашивать данные можно без перезагрузки в родные таблицы, как это например надо делать в Redshift (пока не появился Redshift Spectrum). HAWQ умеет читать данные с HDFS, умеет читать данные в основных форматах: текст, Avro, Parquet, ORC. Так же он может использовать HCatalog, чтобы не создавать внешние таблицы самому и YARN для управления ресурсами. Довольно неплохая интеграция, на мой взгляд.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39566504
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А без "использовании всей мощи" - нафиг он вообще нужен. Юзай ванильный HIVE и иже с ними.
...
Рейтинг: 0 / 0
Миграция RDBMS -> Hadoop
    #39566948
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan DurakА без "использовании всей мощи" - нафиг он вообще нужен. Юзай ванильный HIVE и иже с ними.
Потому что Хайв настолько унылое говно, что даже гринплам без всей его мощи лучше? Не знаю, если потрудишься просмотреть тред, то вопрос так изначально не стоял, вопрос стоял "есть ли интеграция", она есть. По другим вопросам - не ко мне.
...
Рейтинг: 0 / 0
21 сообщений из 21, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Миграция RDBMS -> Hadoop
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]