|
Версия sqoop
|
|||
---|---|---|---|
#18+
Пытаюсь понять, как лучше всего организовать перенос данных между Oracle и Hadoop, вроде как подходящим инструментом должен быть Sqoop, но когда стал смотреть более детально понял, что есть какой-то бардак с версиями, очень походит, что более новый sqoop 2 ничего не умеет (а возможно и не развивается, cloudera пишет, что хочет выпиливать его из своего дистрибутива). В общем интересуют советы, что лучше использовать в новом проекте sqoop 1 или sqoop 2 или может быть вообще какой другой инструмент? Потенциально еще вижу следующие варианты: 1. Экспортнуть из Oracle через SET MARKUP CSV ON, скопировать в hdfs, прочитать spark'ом. 2. Подключиться Spark'ом напрямую к Oracle (создать соответствующий Dataset) ... |
|||
:
Нравится:
Не нравится:
|
|||
23.04.2018, 14:53 |
|
Версия sqoop
|
|||
---|---|---|---|
#18+
Я бы спарком дернул, если задача разовая. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2018, 00:48 |
|
Версия sqoop
|
|||
---|---|---|---|
#18+
Apex, задача не разовая, нужно делать на регулярной основе, нужны обращения как к набору небольших таблиц справочников (в режиме удалили в таблицу в hadoop, перенесли целиком заново), так и ежедневно по итогу дня переносить некий инкремент от большой таблицы фактов. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.04.2018, 09:52 |
|
Версия sqoop
|
|||
---|---|---|---|
#18+
just_vladimir, Если возник вопрос, что лучше использовать, sqoop 1 или sqoop 2 - используйте первую версию. Почитать про отличия sqoop 1 vs 2. Не вижу смысла использовать spark для задачи "загрузить данные из RDBMS в HDFS" - всё таки для каждой задачи свой инструмент...Если в будущем потребуется реализовать инкрементальную загрузку, да ещё и с учётом партиций и прочего - sqoop уже это умеет и не надо будет изобретать велосипеды. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.06.2018, 00:41 |
|
|
start [/forum/topic.php?fid=48&msg=39635071&tid=1856620]: |
0ms |
get settings: |
9ms |
get forum list: |
11ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
66ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
46ms |
get tp. blocked users: |
2ms |
others: | 235ms |
total: | 389ms |
0 / 0 |