powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / ETL for hadoop
25 сообщений из 31, страница 1 из 2
ETL for hadoop
    #39477433
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Всем привет!

Зоопарк систем растет, нужен хороший ETL который умеет из csv, баз, веб сервисов складывать в hdfs
Хороши ли talend, spoon ?
...
Рейтинг: 0 / 0
ETL for hadoop
    #39477659
haXbat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

Только unix shell, только хардкор! Можешь еще посмотреть бесплатные StreamSets / NiFi, для простых задач они довольно неплохи. Но с ростом сложности приходится куски дописывать на shell-е.
...
Рейтинг: 0 / 0
ETL for hadoop
    #39477832
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1нужен хороший ETL который умеет из csv, баз, веб сервисов складывать в hdfs Informatica, SSIS ...
...
Рейтинг: 0 / 0
ETL for hadoop
    #39478008
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушкамигель1нужен хороший ETL который умеет из csv, баз, веб сервисов складывать в hdfs Informatica, SSIS ...

Ой! А с каких пор SSIS работает с веб сервисами и hdfs???
...
Рейтинг: 0 / 0
ETL for hadoop
    #39478010
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

сервисы с 2005го, хдфс с 2016го
...
Рейтинг: 0 / 0
ETL for hadoop
    #39478144
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушка,
А можно ссылочку. Я пытался сделать, но он потребовал какой-то wsdl
и на этом я стопорнулся
...
Рейтинг: 0 / 0
ETL for hadoop
    #39478577
Псевдомизантроп
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
StreamSets Data Collector
...
Рейтинг: 0 / 0
ETL for hadoop
    #39479384
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

WSDL файл используется для описания интерфейса для доступа к Web-службе,
то есть фактически говорит нам, что она может
...
Рейтинг: 0 / 0
ETL for hadoop
    #39479385
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
ETL for hadoop
    #39479482
Partisan M
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1Хороши ли talend, spoon ?

Предыдущие ответы лишены всякого смысла, так как их авторы не поняли вопрос.
То, что вы имели ввиду под spoon, это Pentaho Data Integration, оно же PDI, оно же Kettle. В общем, в переводе на русский язык, PDI. spoon - это компонент PDI, а именно, визуальный редактор процессов интеграции.
PDI имеет готовый соединитель для Hadoop (а также возможность запуска Job-ов Hadoop), про Talend Open Studio не помню, но вы можете это легко узнать, например, установив его.
Есть много систем ETL, из них PDI и Talend привлекают тем, что имеют бесплатные варианты, хорошую документацию и по ним есть много книг на английском языке. Наряду с Talend можно рассмотреть Jaspersoft ETL , который является упрощённым вариантом Talend, но имеет соединители для других компонентов Jaspersoft.

Лучше сравнить PDI и Talend самостоятельно. Мне показалось, что PDI легче для первоначального изучения. Но у Talend даже в бесплатном варианте поддерживаются транзакции базы данных. впрочем вам важнее узнать, есть ли соединитель (connector, adapter) для Hadoop.
...
Рейтинг: 0 / 0
ETL for hadoop
    #39479511
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Partisan MЛучше сравнить PDI и Talend самостоятельно. Мне показалось, что PDI легче для первоначального изучения. Но у Talend даже в бесплатном варианте поддерживаются транзакции базы данных. впрочем вам важнее узнать, есть ли соединитель (connector, adapter) для Hadoop.
мало узнать, есть ли он. Надо узнать подходит ли он (по производительности)
У SAS тоже есть конектор для хадупа, но пришлось писать самопальный экпорт-импорт, чтобы хоть как-то быстро работало.
...
Рейтинг: 0 / 0
ETL for hadoop
    #39479982
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик https://www.mssqltips.com/sqlservertip/3272/example-using-web-services-with-sql-server-integration-services/
я это видел, списибо, но там есть пункт
In the Server URL textbox, specify the web service address: " http://www.webservicex.net/globalweather.asmx?WSDL" and press
Перевод с сайта "скачайте WSDL файл", а если у меня нет его?
...
Рейтинг: 0 / 0
ETL for hadoop
    #39479995
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

запросите у того, кто поддерживает сервис
...
Рейтинг: 0 / 0
ETL for hadoop
    #39480005
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1а если у меня нет его? How to get the wsdl file from a webservice's URL
...
Рейтинг: 0 / 0
ETL for hadoop
    #39480018
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушка,
Спасибо попробую.

Как я понимаю на выходе будет Xml, который надо преобразовать уже в таблицу ))
7 кругов ада ))
...
Рейтинг: 0 / 0
ETL for hadoop
    #39527136
Jack Carver
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги! Подскажите насколько безумна мысль использовать Apache/Airbnb Airflow для ETL над "этими хадупами"?
...
Рейтинг: 0 / 0
ETL for hadoop
    #39527950
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jack Carver,

А что мешает попробовать, чай бесплатно)
...
Рейтинг: 0 / 0
ETL for hadoop
    #39530561
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jack CarverКоллеги! Подскажите насколько безумна мысль использовать Apache/Airbnb Airflow для ETL над "этими хадупами"?

если не пугают расходы на зоопарк...
в РФ мало кто с таким работает
...
Рейтинг: 0 / 0
ETL for hadoop
    #39530577
Jack Carver
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик,

А в чем расходы? В любом случае хадуп - это уже зоопарк.
Airflow же достаточно понятен и легко поддается допиливанию как нутра, так и операторов.

Сравнивая Airflow и NiFi - выбор пока в пользу первого.
...
Рейтинг: 0 / 0
ETL for hadoop
    #39537091
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jack CarverКоллеги! Подскажите насколько безумна мысль использовать Apache/Airbnb Airflow для ETL над "этими хадупами"?
Мысль вполне нормальная. Единственное, что нужно обратить внимание на недоразвитый функционал разграничения прав и привелегий и проверить как оно будет работать с источниками данных вне Hadoop. А так, на мой вгляд вполе разумное решение.
...
Рейтинг: 0 / 0
ETL for hadoop
    #39541344
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот я что я принес )

https://kylo.io/

Kylo is an open source enterprise-ready data lake management software platform for self-service data ingest and data preparation with integrated metadata management, governance, security and best practices inspired by Think Big's 150+ big data implementation projects.

Кто нить пробовал?
...
Рейтинг: 0 / 0
ETL for hadoop
    #39594089
kaldorey
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

Kylo успел уже пощупать?
...
Рейтинг: 0 / 0
ETL for hadoop
    #39594427
мигель1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
kaldorey,

Нет пока. в ближайшее время как раз будем пробовать 3 системы

Airbnb Airflow
Apache Nifi
Kylo
...
Рейтинг: 0 / 0
ETL for hadoop
    #39595807
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1kaldorey,

Нет пока. в ближайшее время как раз будем пробовать 3 системы

Airbnb Airflow
Apache Nifi
Kylo
отпишись потом обязательно. Всем интересно
...
Рейтинг: 0 / 0
ETL for hadoop
    #39680119
kaldorey
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
мигель1,

Есть новости? Из перечисленного мы для пары задач только airflow затестили, хочется узнать про остальное :)
...
Рейтинг: 0 / 0
25 сообщений из 31, страница 1 из 2
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / ETL for hadoop
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]