powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Версия sqoop
4 сообщений из 4, страница 1 из 1
Версия sqoop
    #39634810
just_vladimir
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Пытаюсь понять, как лучше всего организовать перенос данных между Oracle и Hadoop, вроде как подходящим инструментом должен быть Sqoop, но когда стал смотреть более детально понял, что есть какой-то бардак с версиями, очень походит, что более новый sqoop 2 ничего не умеет (а возможно и не развивается, cloudera пишет, что хочет выпиливать его из своего дистрибутива).

В общем интересуют советы, что лучше использовать в новом проекте sqoop 1 или sqoop 2 или может быть вообще какой другой инструмент?

Потенциально еще вижу следующие варианты:
1. Экспортнуть из Oracle через SET MARKUP CSV ON, скопировать в hdfs, прочитать spark'ом.
2. Подключиться Spark'ом напрямую к Oracle (создать соответствующий Dataset)
...
Рейтинг: 0 / 0
Версия sqoop
    #39635071
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я бы спарком дернул, если задача разовая.
...
Рейтинг: 0 / 0
Версия sqoop
    #39635146
just_vladimir
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apex,
задача не разовая, нужно делать на регулярной основе, нужны обращения как к набору небольших таблиц справочников (в режиме удалили в таблицу в hadoop, перенесли целиком заново), так и ежедневно по итогу дня переносить некий инкремент от большой таблицы фактов.
...
Рейтинг: 0 / 0
Версия sqoop
    #39663856
neznau
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
just_vladimir,

Если возник вопрос, что лучше использовать, sqoop 1 или sqoop 2 - используйте первую версию.

Почитать про отличия sqoop 1 vs 2.

Не вижу смысла использовать spark для задачи "загрузить данные из RDBMS в HDFS" - всё таки для каждой задачи свой инструмент...Если в будущем потребуется реализовать инкрементальную загрузку, да ещё и с учётом партиций и прочего - sqoop уже это умеет и не надо будет изобретать велосипеды.
...
Рейтинг: 0 / 0
4 сообщений из 4, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Версия sqoop
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]