|
|
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Доброго времени суток, коллеги! Провожу тестирование и поверхностное изучение различных средств ETL, в частности - Pentaho data integration CE 7.0.0.0-25 Создал трансформацию по простой (без преобразований) перезагрузке из CSV-файла (~17000 строк) в таблицу СУБД Greenplum (СЕ версия 4.3.12.0) Результат по качеству - ожидаемый, по времени - медленно ~35 сек Запускал трансформацию вручную из spoon, на том же сервере, что и СУБД Для сравнения сделал insert в ту же таблицу, только на основе селекта из external table, смотрящей на тот же CSV-файл - ~5сек Помогите, пожалуйста, понять 7-кратную разницу во времени? BTW: на Talend DI 20161216_1026-V6.3.1 временной результат похожий ~32 сек ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2017, 18:46 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Mark V. LobanovДоброго времени суток, коллеги! Провожу тестирование и поверхностное изучение различных средств ETL, в частности - Pentaho data integration CE 7.0.0.0-25 Создал трансформацию по простой (без преобразований) перезагрузке из CSV-файла (~17000 строк) в таблицу СУБД Greenplum (СЕ версия 4.3.12.0) Результат по качеству - ожидаемый, по времени - медленно ~35 сек Запускал трансформацию вручную из spoon, на том же сервере, что и СУБД Для сравнения сделал insert в ту же таблицу, только на основе селекта из external table, смотрящей на тот же CSV-файл - ~5сек Помогите, пожалуйста, понять 7-кратную разницу во времени? BTW: на Talend DI 20161216_1026-V6.3.1 временной результат похожий ~32 сек ...Таленд и Пентаха вроде как на жаве написаны, логично предположить что и конекторы jdbc-ишные, а за 5 секунд сработал какойто оптимизированый личный драйвер Гринплюма. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 02:14 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
javajdbc, Да, на джаве, разница должна быть, но не в 7 же раз! Объём вливаемых данных порядка 5MB в UTF8, в реале может быть порядка 5 гиг, плюс народ разных преобразований понарисовывает, так за ночь может и не загрузится. Я не уверен, что коммерческая версия (с сервером приложений) будет работать значительно быстрее. Може в настройках pentaho или самой трансформации что-то подкрутить нужно? Кто что посоветует? Оба средства позиционируются как промышленные, неужели у всех так? Или все на информатике сидят, которая летает аки истребитель? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 08:50 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
попробовал импорт из того же файла в ту же таблицу pgAdmin-ом с клиента ~6сек ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 09:27 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Mark V. Lobanov, а ссылка на gpload прописана? https://dzone.com/articles/pentaho-data-integration-adds ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 09:48 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
про pgload увидел, посмотрю чуть позже а вот что означают записи в логе 2017/03/29 10:05:19 - 1st - Triggering heartbeat signal for 1st at every 10 seconds 2017/03/29 10:05:29 - 1st - Triggering heartbeat signal for 1st at every 10 seconds 2017/03/29 10:05:39 - 1st - Triggering heartbeat signal for 1st at every 10 seconds ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 10:16 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Mark V. Lobanov, Определите, что именно работает медленно. Попробуйте этот файл в другой точно такой же файл перегнать - мгновенно? Хорошо, теперь из таблицы в таблицу без транкейта (вдруг именно он корявит). Выявите узкое место, и про него узнавайте. Точно такое же простым инсертом в оракл у меня узким место становилась сеть 100 мбит/с. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 11:27 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
kaldorey, включил детальное логгирование "торможение" происходит на вот тех трех записях, что я привел чуть выше из 35 секунд, 30 занимают эти три записи в логе ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 11:32 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Mark V. Lobanovпро pgload увидел, посмотрю чуть позже gpload юзать надо обязательно - это прямая загрузка данных на сегменты в параллели, минуя мастер-сегмент. А обычный инсерт пойдет вставлять через мастер-сегмент, естественно на кластере в 10-ки сегментов это будет разница на порядок. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 12:57 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Leoris , спасибо за идею! получилось быстро с PostgreSQL Bulk Loader (см.вложение) а есть ещё Greenplum Load, его надо курить отдельно )) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 13:12 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
вопрос про Triggering heartbeat signal for <tr_name> at every 10 seconds остался открытым что это значит, кто знает? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 15:55 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Mark V. Lobanov, heartbeat signal - вообще это сигнал, который подаёт приложение, когда не происходит никакой активности, но соединение должно оставаться открытым. В примере из логов Пентахо каждый 10 секунд отправляет запрос, чтобы соединение не разорвалось по таймауту. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.03.2017, 16:24 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Leoris, вот что оно ждёт? 2017/03/30 10:24:20 - 1st - Transformation is pre-loaded. 2017/03/30 10:24:20 - 1st - nr of steps to run : 2 , nr of hops : 1 2017/03/30 10:24:20 - Spoon - Transformation opened. 2017/03/30 10:24:20 - Spoon - Launching transformation [1st]... 2017/03/30 10:24:20 - Spoon - Started the transformation execution. 2017/03/30 10:24:20 - 1st - Dispatching started for transformation [1st] 2017/03/30 10:24:20 - 1st - Nr of arguments detected:0 2017/03/30 10:24:20 - 1st - This is not a replay transformation 2017/03/30 10:24:20 - 1st - I found 2 different steps to launch. 2017/03/30 10:24:20 - 1st - Allocating rowsets... 2017/03/30 10:24:20 - 1st - Allocating rowsets for step 0 --> CSV file input 2017/03/30 10:24:20 - 1st - prevcopies = 1, nextcopies=1 2017/03/30 10:24:20 - 1st - Transformation allocated new rowset [CSV file input.0 - Table output.0] 2017/03/30 10:24:20 - 1st - Allocated 1 rowsets for step 0 --> CSV file input 2017/03/30 10:24:20 - 1st - Allocating rowsets for step 1 --> Table output 2017/03/30 10:24:20 - 1st - Allocated 1 rowsets for step 1 --> Table output 2017/03/30 10:24:20 - 1st - Allocating Steps & StepData... 2017/03/30 10:24:20 - 1st - Transformation is about to allocate step [CSV file input] of type [CsvInput] 2017/03/30 10:24:20 - 1st - Step has nrcopies=1 2017/03/30 10:24:20 - CSV file input.0 - distribution activated 2017/03/30 10:24:20 - CSV file input.0 - Starting allocation of buffers & new threads... 2017/03/30 10:24:20 - CSV file input.0 - Step info: nrinput=0 nroutput=1 2017/03/30 10:24:20 - CSV file input.0 - output rel. is 1:1 2017/03/30 10:24:20 - CSV file input.0 - Found output rowset [CSV file input.0 - Table output.0] 2017/03/30 10:24:20 - CSV file input.0 - Finished dispatching 2017/03/30 10:24:20 - 1st - Transformation has allocated a new step: [CSV file input].0 2017/03/30 10:24:20 - 1st - Transformation is about to allocate step [Table output] of type [TableOutput] 2017/03/30 10:24:20 - 1st - Step has nrcopies=1 2017/03/30 10:24:20 - Table output.0 - distribution activated 2017/03/30 10:24:20 - Table output.0 - Starting allocation of buffers & new threads... 2017/03/30 10:24:20 - Table output.0 - Step info: nrinput=1 nroutput=0 2017/03/30 10:24:20 - Table output.0 - Got previous step from [Table output] #0 --> CSV file input 2017/03/30 10:24:20 - Table output.0 - input rel is 1:1 2017/03/30 10:24:20 - Table output.0 - Found input rowset [CSV file input.0 - Table output.0] 2017/03/30 10:24:20 - Table output.0 - Finished dispatching 2017/03/30 10:24:20 - 1st - Transformation has allocated a new step: [Table output].0 2017/03/30 10:24:20 - 1st - This transformation can be replayed with replay date: 2017/03/30 10:24:20 2017/03/30 10:24:20 - 1st - Initialising 2 steps... 2017/03/30 10:24:20 - Table output.0 - Released server socket on port 0 2017/03/30 10:24:20 - GP - New database connection defined 2017/03/30 10:24:20 - CSV file input.0 - Released server socket on port 0 2017/03/30 10:24:20 - Table output.0 - Connected to database [GP] (commit=1000000) 2017/03/30 10:24:20 - GP - Auto commit off 2017/03/30 10:24:20 - 1st - Step [CSV file input.0] initialized flawlessly. 2017/03/30 10:24:20 - 1st - Step [Table output.0] initialized flawlessly. 2017/03/30 10:24:20 - 1st - Transformation has allocated 2 threads and 1 rowsets. 2017/03/30 10:24:20 - Table output.0 - Starting to run... 2017/03/30 10:24:20 - CSV file input.0 - Starting to run... 2017/03/30 10:24:20 - CSV file input.0 - Header row skipped in file 'D:\Work\Greenplum\123h.csv' 2017/03/30 10:24:20 - Table output.0 - Prepared statement : INSERT INTO pilotdwh.lmv_test (dat_tz, kodfilii, kod_ksk, npr_ksk, otr, name_tov, kod_grup, name_grup, kod_ktv, name_ktv, kiz_edrpou, name_kiz, kod_kiz, kiz_ndog, kiz_dd_dog, vid_post, tip_dog, ost_kol, ost_bndc, ost_zndc, str130, numbgr, kvd) VALUES ( ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?) 2017/03/30 10:24:20 - CSV file input.0 - Signaling 'output done' to 1 output rowsets. 2017/03/30 10:24:20 - CSV file input.0 - Finished processing (I=16838, O=0, R=0, W=16837, U=0, E=0) 2017/03/30 10:24:30 - 1st - Triggering heartbeat signal for 1st at every 10 seconds 2017/03/30 10:24:40 - 1st - Triggering heartbeat signal for 1st at every 10 seconds 2017/03/30 10:24:50 - 1st - Triggering heartbeat signal for 1st at every 10 seconds 2017/03/30 10:24:54 - GP - Commit on database connection [GP] 2017/03/30 10:24:54 - Table output.0 - Signaling 'output done' to 0 output rowsets. 2017/03/30 10:24:54 - GP - Commit on database connection [GP] 2017/03/30 10:24:54 - GP - Connection to database closed! 2017/03/30 10:24:54 - Table output.0 - Finished processing (I=0, O=16837, R=16837, W=16837, U=0, E=0) 2017/03/30 10:24:54 - 1st - searching for annotations 2017/03/30 10:24:54 - 1st - no annotations found 2017/03/30 10:24:54 - Spoon - The transformation has finished!! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.03.2017, 10:27 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
когда эксперементировал с нетиззой(тоже мрр) она всасывала файлы родной утилитой через свой odbc с космической скоростью, любы другие варианты загрузки всегда были дольше, иногда в разы дольше, это нормально. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.03.2017, 12:52 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Sintetikкогда эксперементировал так во всех мпп. И даже не мпп. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.03.2017, 12:54 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Бумбараштак во всех мпп. И даже не мпп. увы да ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.03.2017, 11:48 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Mark V. LobanovLeoris, вот что оно ждёт? план смотри на стороне гп. там и увидишь чего оно делает ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.03.2017, 17:51 |
|
||
|
Pentaho DI & Greenpum производительность
|
|||
|---|---|---|---|
|
#18+
Коллеги, Объясните мне, пожалуйста, чего оно ждёт ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.04.2017, 12:49 |
|
||
|
|

start [/forum/topic.php?fid=49&fpage=33&tid=1858314]: |
0ms |
get settings: |
8ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
60ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
95ms |
get tp. blocked users: |
2ms |
| others: | 13ms |
| total: | 214ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...