|
Какой инструмент подойдет для данной задачи?
|
|||
---|---|---|---|
#18+
Вообщем есть ftp папка туда кидаются csv выгрузки в разном формате. (более 100 в день) Их надо поименовать и положить в hdfs При этом, если такой файлик уже есть это нужно дописать, если нет то создать, а следующие дописывать Для 1 файла, я это проделал руками через консоль, но сотни обработать вручную нереально Какой инструмент подойдет для данной задачи? Спасибо ... |
|||
:
Нравится:
Не нравится:
|
|||
29.09.2016, 09:53 |
|
Какой инструмент подойдет для данной задачи?
|
|||
---|---|---|---|
#18+
У вас 3 задачи: 1. захват файлов с фтп и перекладка их на одну из нод Хадупа 2. загрузка локальных файлов в HDFS 3. копирование файлов, с объединением Под каждую задачу можно подобрать софт, в принципе при желании все на sh реализуется с использованием штатных утилит Линукса для работы с FTP и Хадупной утилиты hdfs с параметром dfs. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.09.2016, 13:40 |
|
Какой инструмент подойдет для данной задачи?
|
|||
---|---|---|---|
#18+
ASCRUS, Спасибо. Я сейчас так и делаю: 1.Захожу в командную строку. копирую файл и дописываю дату 2. потом захожу в hdfs, сотрю если файл есть делаю аппенд, если нет. то просто переношу. но для каждого файла приходится это делать вручную. Я думал есть какой то ETL ? ... |
|||
:
Нравится:
Не нравится:
|
|||
29.09.2016, 16:39 |
|
Какой инструмент подойдет для данной задачи?
|
|||
---|---|---|---|
#18+
мигель1ASCRUS, 2. потом захожу в hdfs, сотрю если файл есть делаю аппенд, если нет. то просто переношу. Вот так прям глазами смотришь? "hdfs dfs -test" обернуть в shell скрипт с нужной логикой, запускать по расписанию в cron. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.09.2016, 17:20 |
|
Какой инструмент подойдет для данной задачи?
|
|||
---|---|---|---|
#18+
haXbat, Апну темку ) Теперь запускать по расписанию в cron не нужно. В ambari появилась такая штука как Workflow Manager Workflow Manager integrates with the Hortonworks Data Platform (HDP) and supports Hadoop jobs for Hive, Sqoop, Pig, MapReduce, Spark, and more. In addition, it can be used to perform Java, Linux shell, distcp, SSH, email, and other operations. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.06.2017, 02:24 |
|
|
start [/forum/topic.php?fid=48&fpage=5&tid=1856682]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
35ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
41ms |
get tp. blocked users: |
2ms |
others: | 13ms |
total: | 134ms |
0 / 0 |