powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Pentaho DI & Greenpum производительность
18 сообщений из 18, страница 1 из 1
Pentaho DI & Greenpum производительность
    #39428698
Фотография Mark V. Lobanov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Доброго времени суток, коллеги!

Провожу тестирование и поверхностное изучение различных средств ETL, в частности - Pentaho data integration CE 7.0.0.0-25
Создал трансформацию по простой (без преобразований) перезагрузке из CSV-файла (~17000 строк) в таблицу СУБД Greenplum (СЕ версия 4.3.12.0)

Результат по качеству - ожидаемый, по времени - медленно ~35 сек
Запускал трансформацию вручную из spoon, на том же сервере, что и СУБД

Для сравнения сделал insert в ту же таблицу, только на основе селекта из external table, смотрящей на тот же CSV-файл - ~5сек

Помогите, пожалуйста, понять 7-кратную разницу во времени?

BTW: на Talend DI 20161216_1026-V6.3.1 временной результат похожий ~32 сек
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39428866
Фотография javajdbc
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Mark V. LobanovДоброго времени суток, коллеги!

Провожу тестирование и поверхностное изучение различных средств ETL, в частности - Pentaho data integration CE 7.0.0.0-25
Создал трансформацию по простой (без преобразований) перезагрузке из CSV-файла (~17000 строк) в таблицу СУБД Greenplum (СЕ версия 4.3.12.0)

Результат по качеству - ожидаемый, по времени - медленно ~35 сек
Запускал трансформацию вручную из spoon, на том же сервере, что и СУБД

Для сравнения сделал insert в ту же таблицу, только на основе селекта из external table, смотрящей на тот же CSV-файл - ~5сек

Помогите, пожалуйста, понять 7-кратную разницу во времени?

BTW: на Talend DI 20161216_1026-V6.3.1 временной результат похожий ~32 сек

...Таленд и Пентаха вроде как на жаве написаны, логично предположить что
и конекторы jdbc-ишные, а за 5 секунд сработал какойто оптимизированый
личный драйвер Гринплюма.
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39428927
Фотография Mark V. Lobanov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
javajdbc,

Да, на джаве, разница должна быть, но не в 7 же раз!
Объём вливаемых данных порядка 5MB в UTF8, в реале может быть порядка 5 гиг, плюс народ разных преобразований понарисовывает, так за ночь может и не загрузится.
Я не уверен, что коммерческая версия (с сервером приложений) будет работать значительно быстрее.
Може в настройках pentaho или самой трансформации что-то подкрутить нужно? Кто что посоветует?
Оба средства позиционируются как промышленные, неужели у всех так? Или все на информатике сидят, которая летает аки истребитель?
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39428947
Фотография Mark V. Lobanov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
попробовал импорт из того же файла в ту же таблицу pgAdmin-ом с клиента ~6сек
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39428954
Leoris
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Mark V. Lobanov,
а ссылка на gpload прописана?

https://dzone.com/articles/pentaho-data-integration-adds
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39428981
Фотография Mark V. Lobanov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
про pgload увидел, посмотрю чуть позже

а вот что означают записи в логе
2017/03/29 10:05:19 - 1st - Triggering heartbeat signal for 1st at every 10 seconds
2017/03/29 10:05:29 - 1st - Triggering heartbeat signal for 1st at every 10 seconds
2017/03/29 10:05:39 - 1st - Triggering heartbeat signal for 1st at every 10 seconds
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39429049
kaldorey
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Mark V. Lobanov,

Определите, что именно работает медленно. Попробуйте этот файл в другой точно такой же файл перегнать - мгновенно? Хорошо, теперь из таблицы в таблицу без транкейта (вдруг именно он корявит). Выявите узкое место, и про него узнавайте. Точно такое же простым инсертом в оракл у меня узким место становилась сеть 100 мбит/с.
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39429054
Фотография Mark V. Lobanov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
kaldorey,
включил детальное логгирование
"торможение" происходит на вот тех трех записях, что я привел чуть выше
из 35 секунд, 30 занимают эти три записи в логе
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39429171
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Mark V. Lobanovпро pgload увидел, посмотрю чуть позже

gpload юзать надо обязательно - это прямая загрузка данных на сегменты в параллели, минуя мастер-сегмент.
А обычный инсерт пойдет вставлять через мастер-сегмент, естественно на кластере в 10-ки сегментов это будет разница на порядок.
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39429188
Фотография Mark V. Lobanov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leoris , спасибо за идею!
получилось быстро с PostgreSQL Bulk Loader (см.вложение)
а есть ещё Greenplum Load, его надо курить отдельно ))
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39429353
Фотография Mark V. Lobanov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вопрос про Triggering heartbeat signal for <tr_name> at every 10 seconds остался открытым
что это значит, кто знает?
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39429376
Leoris
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Mark V. Lobanov,

heartbeat signal - вообще это сигнал, который подаёт приложение, когда не происходит никакой активности, но соединение должно оставаться открытым. В примере из логов Пентахо каждый 10 секунд отправляет запрос, чтобы соединение не разорвалось по таймауту.
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39429790
Фотография Mark V. Lobanov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leoris, вот что оно ждёт?


2017/03/30 10:24:20 - 1st - Transformation is pre-loaded.
2017/03/30 10:24:20 - 1st - nr of steps to run : 2 , nr of hops : 1
2017/03/30 10:24:20 - Spoon - Transformation opened.
2017/03/30 10:24:20 - Spoon - Launching transformation [1st]...
2017/03/30 10:24:20 - Spoon - Started the transformation execution.
2017/03/30 10:24:20 - 1st - Dispatching started for transformation [1st]
2017/03/30 10:24:20 - 1st - Nr of arguments detected:0
2017/03/30 10:24:20 - 1st - This is not a replay transformation
2017/03/30 10:24:20 - 1st - I found 2 different steps to launch.
2017/03/30 10:24:20 - 1st - Allocating rowsets...
2017/03/30 10:24:20 - 1st - Allocating rowsets for step 0 --> CSV file input
2017/03/30 10:24:20 - 1st - prevcopies = 1, nextcopies=1
2017/03/30 10:24:20 - 1st - Transformation allocated new rowset [CSV file input.0 - Table output.0]
2017/03/30 10:24:20 - 1st - Allocated 1 rowsets for step 0 --> CSV file input
2017/03/30 10:24:20 - 1st - Allocating rowsets for step 1 --> Table output
2017/03/30 10:24:20 - 1st - Allocated 1 rowsets for step 1 --> Table output
2017/03/30 10:24:20 - 1st - Allocating Steps & StepData...
2017/03/30 10:24:20 - 1st - Transformation is about to allocate step [CSV file input] of type [CsvInput]
2017/03/30 10:24:20 - 1st - Step has nrcopies=1
2017/03/30 10:24:20 - CSV file input.0 - distribution activated
2017/03/30 10:24:20 - CSV file input.0 - Starting allocation of buffers & new threads...
2017/03/30 10:24:20 - CSV file input.0 - Step info: nrinput=0 nroutput=1
2017/03/30 10:24:20 - CSV file input.0 - output rel. is 1:1
2017/03/30 10:24:20 - CSV file input.0 - Found output rowset [CSV file input.0 - Table output.0]
2017/03/30 10:24:20 - CSV file input.0 - Finished dispatching
2017/03/30 10:24:20 - 1st - Transformation has allocated a new step: [CSV file input].0
2017/03/30 10:24:20 - 1st - Transformation is about to allocate step [Table output] of type [TableOutput]
2017/03/30 10:24:20 - 1st - Step has nrcopies=1
2017/03/30 10:24:20 - Table output.0 - distribution activated
2017/03/30 10:24:20 - Table output.0 - Starting allocation of buffers & new threads...
2017/03/30 10:24:20 - Table output.0 - Step info: nrinput=1 nroutput=0
2017/03/30 10:24:20 - Table output.0 - Got previous step from [Table output] #0 --> CSV file input
2017/03/30 10:24:20 - Table output.0 - input rel is 1:1
2017/03/30 10:24:20 - Table output.0 - Found input rowset [CSV file input.0 - Table output.0]
2017/03/30 10:24:20 - Table output.0 - Finished dispatching
2017/03/30 10:24:20 - 1st - Transformation has allocated a new step: [Table output].0
2017/03/30 10:24:20 - 1st - This transformation can be replayed with replay date: 2017/03/30 10:24:20
2017/03/30 10:24:20 - 1st - Initialising 2 steps...
2017/03/30 10:24:20 - Table output.0 - Released server socket on port 0
2017/03/30 10:24:20 - GP - New database connection defined
2017/03/30 10:24:20 - CSV file input.0 - Released server socket on port 0
2017/03/30 10:24:20 - Table output.0 - Connected to database [GP] (commit=1000000)
2017/03/30 10:24:20 - GP - Auto commit off
2017/03/30 10:24:20 - 1st - Step [CSV file input.0] initialized flawlessly.
2017/03/30 10:24:20 - 1st - Step [Table output.0] initialized flawlessly.
2017/03/30 10:24:20 - 1st - Transformation has allocated 2 threads and 1 rowsets.
2017/03/30 10:24:20 - Table output.0 - Starting to run...
2017/03/30 10:24:20 - CSV file input.0 - Starting to run...
2017/03/30 10:24:20 - CSV file input.0 - Header row skipped in file 'D:\Work\Greenplum\123h.csv'
2017/03/30 10:24:20 - Table output.0 - Prepared statement : INSERT INTO pilotdwh.lmv_test (dat_tz, kodfilii, kod_ksk, npr_ksk, otr, name_tov, kod_grup, name_grup, kod_ktv, name_ktv, kiz_edrpou, name_kiz, kod_kiz, kiz_ndog, kiz_dd_dog, vid_post, tip_dog, ost_kol, ost_bndc, ost_zndc, str130, numbgr, kvd) VALUES ( ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
2017/03/30 10:24:20 - CSV file input.0 - Signaling 'output done' to 1 output rowsets.
2017/03/30 10:24:20 - CSV file input.0 - Finished processing (I=16838, O=0, R=0, W=16837, U=0, E=0)
2017/03/30 10:24:30 - 1st - Triggering heartbeat signal for 1st at every 10 seconds
2017/03/30 10:24:40 - 1st - Triggering heartbeat signal for 1st at every 10 seconds
2017/03/30 10:24:50 - 1st - Triggering heartbeat signal for 1st at every 10 seconds
2017/03/30 10:24:54 - GP - Commit on database connection [GP]
2017/03/30 10:24:54 - Table output.0 - Signaling 'output done' to 0 output rowsets.
2017/03/30 10:24:54 - GP - Commit on database connection [GP]
2017/03/30 10:24:54 - GP - Connection to database closed!
2017/03/30 10:24:54 - Table output.0 - Finished processing (I=0, O=16837, R=16837, W=16837, U=0, E=0)
2017/03/30 10:24:54 - 1st - searching for annotations
2017/03/30 10:24:54 - 1st - no annotations found
2017/03/30 10:24:54 - Spoon - The transformation has finished!!
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39430016
Sintetik
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
когда эксперементировал с нетиззой(тоже мрр) она всасывала файлы родной утилитой через свой odbc с космической скоростью, любы другие варианты загрузки всегда были дольше, иногда в разы дольше, это нормально.
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39430019
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Sintetikкогда эксперементировал
так во всех мпп. И даже не мпп.
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39430762
Sintetik
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараштак во всех мпп. И даже не мпп.
увы да
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39431096
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Mark V. LobanovLeoris, вот что оно ждёт?

план смотри на стороне гп. там и увидишь чего оно делает
...
Рейтинг: 0 / 0
Pentaho DI & Greenpum производительность
    #39431953
Фотография Mark V. Lobanov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Коллеги,
Объясните мне, пожалуйста, чего оно ждёт ?
...
Рейтинг: 0 / 0
18 сообщений из 18, страница 1 из 1
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Pentaho DI & Greenpum производительность
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]