|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
На форуме была похожая тема с данными от датчиков, но у меня несколько иной вопрос. Есть подобная система в которой предположим есть данные от датчиков, данных очень много, они не изменяются и постоянно добавляются. Это классическая big-data. Но есть также десяток справочников, названия датчиков, расположение, атрубуты и т.д. - это не big-data а классическая реляционная структура. Основная задача - это анализ данных. Вот думаю как эту структуру организовать, я имею ввиду данные от датчиков и справочную информацию как лучше организовать в Hadoop инфраструктуре. Перенести один к одному таблицы из RDBMS в Hbase и через Hive получить данные SQL запросами, но это не вариант, ибо те запросы которые RDBMS обрабатываются за секунды, вводят Hive в ступор. Я понимаю, что это неправильно, т.к. принцип хранения и обработки информации принципиально другой. Пока единственный вариант который видится - это денормализация справочных данных и хранение их вместе с данными от датчиков. Фактически будет одна таблица с очень длинными строками. Есть ли какие-нибудь бест практис по маппингу данных RDBMS -> Hadoop? В интернете везде классический бесполезный пример с подсчетом слов, а реальных кейсов не находил. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.10.2017, 13:39 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
VladmlЕсть ли какие-нибудь бест практис по маппингу данных RDBMS -> Hadoop? В интернете везде классический бесполезный пример с подсчетом слов, а реальных кейсов не находил. Анализ данных же будет по-рассписанию? Тогда надо перед этим выгрузить данные из SQL в Hadoop. Например m/r job'а лезет в БД (главное ограничить число хостов, а то положить БД не проблема) и тянет снапшот справочника. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.10.2017, 13:59 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
Vladml, при работе на hadoop имхо не стоит использовать способ мышления "таблицами", а придерживаться представления "файлы с данными" у вас есть файлы с данными справочников (например вы их положите на каждую ноду) и файлы с данными ваших датчиков (например по файлу на каждый час). далее в мапере вы цепляете данные за справочник и в редьюсере уже получаете "денормализованную" структуру которую можете использовать сразу для анализа либо сохранить в файл для последующего использования. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.10.2017, 14:18 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
Vladml , Взгляните на недавно анонсированный новый продукт InterSystems IRIS Data Platform en , в котором заявлена поддержка в том числе Apache Spark. PS: вебинар на русском про InterSystems IRIS: 20826630 ... |
|||
:
Нравится:
Не нравится:
|
|||
04.10.2017, 14:21 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
ДедушкаVladml, при работе на hadoop имхо не стоит использовать способ мышления "таблицами", а придерживаться представления "файлы с данными" у вас есть файлы с данными справочников (например вы их положите на каждую ноду) и файлы с данными ваших датчиков (например по файлу на каждый час). далее в мапере вы цепляете данные за справочник и в редьюсере уже получаете "денормализованную" структуру которую можете использовать сразу для анализа либо сохранить в файл для последующего использования. Ну физически так и есть, т.к. таблицы в Hbase хранятся как файлы. Вопрос в том что для получения отчета есть запрос с десятком джоинов. В этом случае я так понимаю map должен прочитать все файлы справочников целиком, вытянуть из на редюс и уже на стадии редюс сделать join. Сейчас такая модель не работает, Hive тупо виснет, разбераюсь почему. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.10.2017, 14:53 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
Alexey TominVladmlЕсть ли какие-нибудь бест практис по маппингу данных RDBMS -> Hadoop? В интернете везде классический бесполезный пример с подсчетом слов, а реальных кейсов не находил. Анализ данных же будет по-рассписанию? Тогда надо перед этим выгрузить данные из SQL в Hadoop. Например m/r job'а лезет в БД (главное ограничить число хостов, а то положить БД не проблема) и тянет снапшот справочника. Сами данные уже транслируются в Hbase, с транспортом проблем нет. Возможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.10.2017, 15:07 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
VladmlВозможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop.в таком режиме может работать, например, MSSQL ... |
|||
:
Нравится:
Не нравится:
|
|||
04.10.2017, 15:37 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
VladmlВозможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop. Ну... greenplum ... |
|||
:
Нравится:
Не нравится:
|
|||
04.10.2017, 15:49 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
VladmlНу физически так и есть, т.к. таблицы в Hbase хранятся как файлы. Вопрос в том что для получения отчета есть запрос с десятком джоинов. В этом случае я так понимаю map должен прочитать все файлы справочников целиком, вытянуть из на редюс и уже на стадии редюс сделать join. Сейчас такая модель не работает, Hive тупо виснет, разбераюсь почему. а ты случайно не пытаешься на SQL в Hive с энжином map-reduce это провернуть ? Hive с десятком джинов хрень сгенерит, вместо мап реюдса. тебе надо или руками map-reduce писать или смотреть на всякие Impala, Tez и прочие енжины к Hive. и справочники лучше не в habse, а просто на hdfs класть. они же явно крошечные, врятли датчиков и локаций мульёны. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.10.2017, 19:00 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
Alexey TominVladmlВозможно есть каки-то гибридные системы, где справочные данные получеются из rdbms и потом объединяются с данными их hadoop. Ну... greenplum угу, только никакого объединения там нет. Хадуп отдельно, гринплам отдельно. Из хадупа их только точечно можно подтягивать в гп. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.10.2017, 17:51 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
Сколько данных-то? У нас раз в 15 секунд с кучи серверов собираются куча показателей в РСУБД - никаких проблем нет. На таблице-приемнике создан колоночный индекс, так что и объем минимален, и скорость аггрегирующих запросов очень высока. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.10.2017, 09:26 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
Ivan DurakAlexey Tominпропущено... Ну... greenplum угу, только никакого объединения там нет. Хадуп отдельно, гринплам отдельно. Из хадупа их только точечно можно подтягивать в гп. Ага. Только GP может решить много проблем, которые рашают хадупом. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.10.2017, 07:42 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
ApexIvan Durakпропущено... угу, только никакого объединения там нет. Есть. только HAWK с HIVE не совместим. Это не объединение. Из обычного хадупа или hive в HAWK придется ПЕРЕГРУЖАТЬ данные! ... |
|||
:
Нравится:
Не нравится:
|
|||
23.10.2017, 16:15 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
шшшшApexпропущено... Есть. только HAWK с HIVE не совместим. Это не объединение. Из обычного хадупа или hive в HAWK придется ПЕРЕГРУЖАТЬ данные! При чем здесь совместимость с Hive и нахер она нужна? Hive != Hadoop, если чо. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.12.2017, 02:23 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
Apexшшшшпропущено... только HAWK с HIVE не совместим. Это не объединение. Из обычного хадупа или hive в HAWK придется ПЕРЕГРУЖАТЬ данные! При чем здесь совместимость с Hive и нахер она нужна? Hive != Hadoop, если чо. ок. ну и совместимости с хадупом нет. Залил ты данные в хадупчик и такой говоришь HAWK-у давай, работай. А он тебе - фиг! Давай-ка еще разок переливай данные уже в HAWK ... |
|||
:
Нравится:
Не нравится:
|
|||
07.12.2017, 18:59 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
Ivan DurakApexпропущено... При чем здесь совместимость с Hive и нахер она нужна? Hive != Hadoop, если чо. ок. ну и совместимости с хадупом нет. Залил ты данные в хадупчик и такой говоришь HAWK-у давай, работай. А он тебе - фиг! Давай-ка еще разок переливай данные уже в HAWK PXF includes built-in connectors for accessing data inside HDFS files, Hive tables, and HBase tables. PXF also integrates with HCatalog to query Hive tables directly. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.12.2017, 21:48 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
ApexIvan Durakпропущено... ок. ну и совместимости с хадупом нет. Залил ты данные в хадупчик и такой говоришь HAWK-у давай, работай. А он тебе - фиг! Давай-ка еще разок переливай данные уже в HAWK PXF includes built-in connectors for accessing data inside HDFS files, Hive tables, and HBase tables. PXF also integrates with HCatalog to query Hive tables directly. ну так это конекторы - для переливки. Ты не сможешь использовать всю мощь гринплама, оставив данные в ванильном хадупе с доступом через коннекторы. Придется ПЕРЕЛИВАТЬ в хок! ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2017, 09:30 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
Ivan Durakну так это конекторы - для переливки. Это не коннекторы для "переливки". Чтобы использовать эти данные в запросах, переливать их в родные таблицы гринплама необязательно. Будет ли это так же эффективно, как с родными таблицами? Нет, не будет. Ivan DurakТы не сможешь использовать всю мощь гринплама, оставив данные в ванильном хадупе с доступом через коннекторы.Придется ПЕРЕЛИВАТЬ в хок! Спасибо Кэп. Только речь шла не об "использовании всей мощи", а о том, что запрашивать данные можно без перезагрузки в родные таблицы, как это например надо делать в Redshift (пока не появился Redshift Spectrum). HAWQ умеет читать данные с HDFS, умеет читать данные в основных форматах: текст, Avro, Parquet, ORC. Так же он может использовать HCatalog, чтобы не создавать внешние таблицы самому и YARN для управления ресурсами. Довольно неплохая интеграция, на мой взгляд. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2017, 10:35 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
А без "использовании всей мощи" - нафиг он вообще нужен. Юзай ванильный HIVE и иже с ними. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.12.2017, 12:06 |
|
Миграция RDBMS -> Hadoop
|
|||
---|---|---|---|
#18+
Ivan DurakА без "использовании всей мощи" - нафиг он вообще нужен. Юзай ванильный HIVE и иже с ними. Потому что Хайв настолько унылое говно, что даже гринплам без всей его мощи лучше? Не знаю, если потрудишься просмотреть тред, то вопрос так изначально не стоял, вопрос стоял "есть ли интеграция", она есть. По другим вопросам - не ко мне. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.12.2017, 10:29 |
|
|
start [/forum/topic.php?fid=48&msg=39566392&tid=1856658]: |
0ms |
get settings: |
8ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
216ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
58ms |
get tp. blocked users: |
2ms |
others: | 15ms |
total: | 337ms |
0 / 0 |