powered by simpleCommunicator - 2.0.53     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Какой инструмент подойдет для данной задачи?
5 сообщений из 5, страница 1 из 1
Какой инструмент подойдет для данной задачи?
    #39317529
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вообщем есть ftp папка

туда кидаются csv выгрузки в разном формате. (более 100 в день)
Их надо поименовать и положить в hdfs
При этом, если такой файлик уже есть это нужно дописать, если нет то создать, а следующие дописывать

Для 1 файла, я это проделал руками через консоль, но сотни обработать вручную нереально


Какой инструмент подойдет для данной задачи?

Спасибо
...
Рейтинг: 0 / 0
Какой инструмент подойдет для данной задачи?
    #39317800
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
У вас 3 задачи:
1. захват файлов с фтп и перекладка их на одну из нод Хадупа
2. загрузка локальных файлов в HDFS
3. копирование файлов, с объединением

Под каждую задачу можно подобрать софт, в принципе при желании все на sh реализуется с использованием штатных утилит Линукса для работы с FTP и Хадупной утилиты hdfs с параметром dfs.
...
Рейтинг: 0 / 0
Какой инструмент подойдет для данной задачи?
    #39318010
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ASCRUS,

Спасибо.
Я сейчас так и делаю:
1.Захожу в командную строку. копирую файл и дописываю дату
2. потом захожу в hdfs, сотрю если файл есть делаю аппенд, если нет. то просто переношу.

но для каждого файла приходится это делать вручную.
Я думал есть какой то ETL ?
...
Рейтинг: 0 / 0
Какой инструмент подойдет для данной задачи?
    #39318033
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1ASCRUS,
2. потом захожу в hdfs, сотрю если файл есть делаю аппенд, если нет. то просто переношу.

Вот так прям глазами смотришь?
"hdfs dfs -test" обернуть в shell скрипт с нужной логикой, запускать по расписанию в cron.
...
Рейтинг: 0 / 0
Какой инструмент подойдет для данной задачи?
    #39477205
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
haXbat,
Апну темку )
Теперь запускать по расписанию в cron не нужно.
В ambari появилась такая штука как Workflow Manager

Workflow Manager integrates with the Hortonworks Data Platform (HDP) and supports Hadoop jobs for Hive, Sqoop, Pig, MapReduce, Spark, and more. In addition, it can be used to perform Java, Linux shell, distcp, SSH, email, and other operations.
...
Рейтинг: 0 / 0
5 сообщений из 5, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Какой инструмент подойдет для данной задачи?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]