Библиотека для небольшого етл / Java

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Java [игнор отключен] [закрыт для гостей] / Библиотека для небольшого етл

25 сообщений из 42, страница 1 из 2

все

Библиотека для небольшого етл

#40072654

razliv

Участник

Сообщения: 579

Рейтинг: 0 / 0

Порекомендуйте библиотеку под Ява, которая может считать 2-3 хмл файла(общий размер ~ 3 гигабайта), распарсить
, сделать трансформации - sort, group by , join entities , и вывести в результирующий файл.
Ищется что-то похожеее на Питновскую pandas и dask, которые не поперхнувшись жуют гигабайтовые файлы, делают групповые трансформации и пишут на диск.

...

Рейтинг:

0 / 0

25.05.2021, 11:14

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072655

razliv

Участник

Сообщения: 579

Рейтинг: 0 / 0

Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :)

...

Рейтинг:

0 / 0

25.05.2021, 11:15

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072657

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

razliv,
Как то сумбурно. Почему сразу три в оперативку а не по частям?

...

Рейтинг:

0 / 0

25.05.2021, 11:19

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072658

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

razliv

Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :)

потому что глупо считать xml как субд

...

Рейтинг:

0 / 0

25.05.2021, 11:20

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072659

razliv

Участник

Сообщения: 579

Рейтинг: 0 / 0

Да, согласен, архитектурно - стоило встать базу данных, и делать трансформации в базе данных.
Но я пришел на проект на фазе, когда уже все написано, на малых обьемах работает, а на продакшне
вылетает. Таким образом - теперь это мой головняк.
Просто самым быстрым, мне кажется, переписать под библиотеку которая приспособлена под большие данные.
Хотя может и ошибаюсь, поэтому и обращаюсь на форум, может кто-то поделиться идеями.

...

Рейтинг:

0 / 0

25.05.2021, 11:24

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072664

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

razliv,
Замечательно что согласен.
Теперь плиз код с ошибкой для ОДНОГО ФАЙЛА а не трех

...

Рейтинг:

0 / 0

25.05.2021, 11:33

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072667

razliv

Участник

Сообщения: 579

Рейтинг: 0 / 0

Ну я вижу, люди реализовали трансоформацию одного файла, из xml в csv с помощью XSLT движка , ну
и вполне ожидаемо - out of memory пишет движок.

То есть я хочу это дело переписать под яву, используя фрамеворк.

...

Рейтинг:

0 / 0

25.05.2021, 11:40

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072668

razliv

Участник

Сообщения: 579

Рейтинг: 0 / 0

Подозреваю под капотом этого движка dom модель парсинга xml, что безусловно плохое решение.
Пытаюсь найти хорошее решение.

...

Рейтинг:

0 / 0

25.05.2021, 11:41

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072689

mad_nazgul

Участник

Сообщения: 3 848

Рейтинг: 0 / 0

razliv

StAX ?!

<:o)

...

Рейтинг:

0 / 0

25.05.2021, 12:17

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072700

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

mad_nazgul, razliv
Чет я подумал что потоковые не умеют группировки сортировки.

...

Рейтинг:

0 / 0

25.05.2021, 12:30

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072715

razliv

Участник

Сообщения: 579

Рейтинг: 0 / 0

PetroNotC Sharp, mad_nasgul

Абсолютно правильно - stax, был бы идеальным вариантом - но есть групповые фильтрации, сортировки, а стах в памяти держит только текущий item.

...

Рейтинг:

0 / 0

25.05.2021, 13:11

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072729

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

razliv

возвращаемся 22326661

...

Рейтинг:

0 / 0

25.05.2021, 13:33

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072751

fixxer

Участник

Сообщения: 805

Рейтинг: 0 / 0

Чудес не бывает. Либо вы даете достаточно памяти для хранения агрегатов, либо делаете в два прохода: сортировка в промежуточный файл, потом агрегация.

...

Рейтинг:

0 / 0

25.05.2021, 15:06

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072752

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

1. Добавить памяти. Сервера с объемом памяти в 256-512 Gb уже не есть что-то удивительное и хайсечное. AFAIK
2. Как другой вариант, искать DOM-парсеры с оптимизацией по памяти. Чудес не бывает, но вполне возможно, нагрузка на память может быть в несколько раз (думаю до десятка) меньше, чем у "обычных" стиральных порошков парсеров типа халан/херсер.

Сколько памяти на сервера, как много юзеров, какой GC в JVM, кто нибудь профилировал/настраивал JVM.

...

Рейтинг:

0 / 0

25.05.2021, 15:15

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072755

fixxer

Участник

Сообщения: 805

Рейтинг: 0 / 0

Leonid Kudryavtsev

1. Добавить памяти. Сервера с объемом памяти в 256-512 Gb уже не есть что-то удивительное и хайсечное. AFAIK

В облаке такие инстансы влетят в копейку, а свои такие держать еще дороже. Тогда проще выгрузить и обработать где-нибудь в облачном Spark/Hadoop (Athena/RedShift)

...

Рейтинг:

0 / 0

25.05.2021, 15:20

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072765

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

fixxer

Не хочется платить за железо (в облаке, не в облаке) - пусть платят программистам за оптимизацию

AFAIK есть DOM-парсеры оптимизированные по памяти. В живую с такими не работал, но читал. Думаю до десятка раз по сравнению с классическими разница вполне может быть.

Тут зависит от исходного ТЗ (что за файлы, что нужно делать), возможного железа (в сколько памяти нужно умешаться), какая должна быть производительность, сколько запросов/юзеров нужно обработать. Сколько времени выделяется программистам/админам.

Хочется автору pandas и dask - в общем-то, думаю проблем даже их прикрутить к JVM особых нет. Но что такое pandas и dask и что у них общего с XML/XSLT лично я не знаю ))).

...

Рейтинг:

0 / 0

25.05.2021, 15:39

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072774

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

razliv,
Еще вариант. Если xml это типа субд у вас, то методы те же. Сначала процесс парсинга вынести за вечер (ночью).
Потом вынести в другой процесс. Потом на другую физческую машину.
Процесс конечно в java я загнул. Все равно вроде одна jvm.
А вот на другую физ машину возможно у вас не сложно.

...

Рейтинг:

0 / 0

25.05.2021, 15:56

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072775

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

1. Есть еще VTD-XML Parsing (Virtual Token Descriptor for XML).

2. Одна из первых же попавшихся статей в I-net'е от 2010 года. Представление DOM в виде xDB на диске. Как я понимаю, програмное API для таких реализаций то-же самое. Т.е. DOM, но хранение оптимизировано с точки зрения потребления памяти.

Что то более новое с ходу не нашлось, но в свое время попадалось. Т.ч. такая реализация не одна, нужно искать, смотреть.

https://www.balisage.net/Proceedings/vol5/html/Probst01/BalisageVol5-Probst01.html

...

Рейтинг:

0 / 0

25.05.2021, 15:59

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072776

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

Еще вариант. Группировать и еще много чего можно в стримах.
Тоже как в субд. Сначала всасываем xml а потом без парсера работаем.

...

Рейтинг:

0 / 0

25.05.2021, 16:00

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072778

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

razliv

Вообще идиотизм подменять субд xml'ем.
Имей мужество остановится когда надо)))

...

Рейтинг:

0 / 0

25.05.2021, 16:03

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072783

PetroNotC Sharp

Участник

Сообщения: 10 098

Рейтинг: 0 / 0

ТС, а где у вас вообще java?
XML - - > group by - - >XML
???)))))

...

Рейтинг:

0 / 0

25.05.2021, 16:15

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072799

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

razliv

Можно поднять локально Spark-shell и в нем сделать. Но возможно для некоторых действий с группировками
надо будет отдельно твикать этот шелл и указывать где и какие RDD можно класть в мемори а какие в диск.

...

Рейтинг:

0 / 0

25.05.2021, 16:44

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072835

mad_nazgul

Участник

Сообщения: 3 848

Рейтинг: 0 / 0

razliv

Stream api ?!

<:o)

...

Рейтинг:

0 / 0

25.05.2021, 18:11

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072837

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Учитывая его 3 Гигабайта - JavaStreamApi можно попробовать. Но надо будет расширяться по -Xmx да и то не факт
что нам хватит разумных пределов.

...

Рейтинг:

0 / 0

25.05.2021, 18:18

| Ответить | Цитировать | Написать

Библиотека для небольшого етл

#40072849

mad_nazgul

Участник

Сообщения: 3 848

Рейтинг: 0 / 0

mayton

Блин 3 гига это ни о чем, не нужно играться -Xmx.

Помню в 2014 году парсил XML-ки чуть меньше 4Гб.
Причем это делалось обычным DOM-парсером, в Spring-приложении.

ИМХО если нужно экономить память, то stax - само то.
Просто группировку делать во время распознавания данных.

...

Рейтинг:

0 / 0

25.05.2021, 18:43

| Ответить | Цитировать | Написать

25 сообщений из 42, страница 1 из 2

все

Форумы / Java [игнор отключен] [закрыт для гостей] / Библиотека для небольшого етл

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=59&msg=40072729&tid=2120438]:	0ms
get settings:	8ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	83ms
get topic data:	11ms
get forum data:	2ms
get page messages:	61ms
get tp. blocked users:	1ms
others:	246ms

total:	432ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы