Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Какой инструмент подойдет для данной задачи? / 5 сообщений из 5, страница 1 из 1
29.09.2016, 09:53
    #39317529
мигель1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Какой инструмент подойдет для данной задачи?
Вообщем есть ftp папка

туда кидаются csv выгрузки в разном формате. (более 100 в день)
Их надо поименовать и положить в hdfs
При этом, если такой файлик уже есть это нужно дописать, если нет то создать, а следующие дописывать

Для 1 файла, я это проделал руками через консоль, но сотни обработать вручную нереально


Какой инструмент подойдет для данной задачи?

Спасибо
...
Рейтинг: 0 / 0
29.09.2016, 13:40
    #39317800
ASCRUS
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Какой инструмент подойдет для данной задачи?
У вас 3 задачи:
1. захват файлов с фтп и перекладка их на одну из нод Хадупа
2. загрузка локальных файлов в HDFS
3. копирование файлов, с объединением

Под каждую задачу можно подобрать софт, в принципе при желании все на sh реализуется с использованием штатных утилит Линукса для работы с FTP и Хадупной утилиты hdfs с параметром dfs.
...
Рейтинг: 0 / 0
29.09.2016, 16:39
    #39318010
мигель1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Какой инструмент подойдет для данной задачи?
ASCRUS,

Спасибо.
Я сейчас так и делаю:
1.Захожу в командную строку. копирую файл и дописываю дату
2. потом захожу в hdfs, сотрю если файл есть делаю аппенд, если нет. то просто переношу.

но для каждого файла приходится это делать вручную.
Я думал есть какой то ETL ?
...
Рейтинг: 0 / 0
29.09.2016, 17:20
    #39318033
haXbat
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Какой инструмент подойдет для данной задачи?
мигель1ASCRUS,
2. потом захожу в hdfs, сотрю если файл есть делаю аппенд, если нет. то просто переношу.

Вот так прям глазами смотришь?
"hdfs dfs -test" обернуть в shell скрипт с нужной логикой, запускать по расписанию в cron.
...
Рейтинг: 0 / 0
25.06.2017, 02:24
    #39477205
мигель1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Какой инструмент подойдет для данной задачи?
haXbat,
Апну темку )
Теперь запускать по расписанию в cron не нужно.
В ambari появилась такая штука как Workflow Manager

Workflow Manager integrates with the Hortonworks Data Platform (HDP) and supports Hadoop jobs for Hive, Sqoop, Pig, MapReduce, Spark, and more. In addition, it can be used to perform Java, Linux shell, distcp, SSH, email, and other operations.
...
Рейтинг: 0 / 0
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Какой инструмент подойдет для данной задачи? / 5 сообщений из 5, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]