powered by simpleCommunicator - 2.0.29     © 2024 Programmizd 02
Map
Форумы / Java [игнор отключен] [закрыт для гостей] / Библиотека для небольшого етл
17 сообщений из 42, страница 2 из 2
Библиотека для небольшого етл
    #40072854
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я не против Stax. Я просто к тому что память у него может жрать не только исходный документ
но и агрегации и сортировки. Здесь уже что Стакс что SAX.
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072863
Фотография asv79
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
razliv
Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :)
.
очень интересное заявление,Библиотека тут не причем
попробуйте увеличить xms xmx до 10 г
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072866
Фотография asv79
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Учитывая его 3 Гигабайта - JavaStreamApi можно попробовать. Но надо будет расширяться по -Xmx да и то не факт
что нам хватит разумных пределов.

если он упал по оом без стримов - со стримами он упадет на 1.5 гига
ему нужно просто увеличить хип,если нет денег на хип ,тогда пусть создает отдельную тему где мы будем решать нерешаемое)
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072869
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот тут пишут что spark-узлам рекомендовано 8Г https://spark.apache.org/docs/latest/hardware-provisioning.html
и из них три четверти под нужды собственно spark-машины и хвостик для нужд ОС.

При правильном тюнинге объем обрабатываемых данных может быть бесконечным. Надо только тюнить.
Поглядывать в мониторинг и разбрасывать датасеты по специальным персистентным структурам (их
там 4 типа бывает... кажется memory, disk+memory, ...e.t.c.)
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072911
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
razliv
Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :)

бери spark. во первых не только для этой задачи пригодиться, во вторых 100% гарантия, что прожует. плюс это думю самое близкое к pandas, может и sparkPy можно зпустить. я для халтурки парсил 1с xml файлики - отлично работает и в локальном режиме.
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072914
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти.

Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом.
Не могу найти где... может и не здесь а в rsdn или habr.
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072917
Фотография asv79
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти.

Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом.
Не могу найти где... может и не здесь а в rsdn или habr.

как так не решает? тс упал по ООМ - дай больше хипа не упадет
другое дело,где програмные просчеты и жор памяти напоминает снежный ком- но тогда причем тут вообще наше обсуждение - мы же обсуждаем готовые фреймворки и либы и их падение по оом- где такие проблемы уже были исключены - иначе бы был вселенский вой и мы бы об этом услышали первыми

по факту есть ситуация - чел взял файл 1 гиг и попытался его обработать посредством своего аппа ,который был запущен скорей всео с парой гиг хипа,а может и меньше- справедливо получил ООМ и пришел зачем то сюда.
1.непонятно причем тут джава
2.решения на джаве быть не может ,это девопсятина
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072918
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
asv79
mayton
Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти.

Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом.
Не могу найти где... может и не здесь а в rsdn или habr.

как так не решает? тс упал по ООМ - дай больше хипа не упадет
другое дело,где програмные просчеты и жор памяти напоминает снежный ком- но тогда причем тут вообще наше обсуждение - мы же обсуждаем готовые фреймворки и либы и их падение по оом- где такие проблемы уже были исключены - иначе бы был вселенский вой и мы бы об этом услышали первыми

по факту есть ситуация - чел взял файл 1 гиг и попытался его обработать посредством своего аппа ,который был запущен скорей всео с парой гиг хипа,а может и меньше- справедливо получил ООМ и пришел зачем то сюда.
1.непонятно причем тут джава
2.решения на джаве быть не может ,это девопсятина

А ты пробовал 3х гигбайтный файл прогрузить в java String? Это не в тему этого топика. Просто так.
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072925
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
asv79

как так не решает? тс упал по ООМ - дай больше хипа не упадет

ваша наивность умиляет
в java прочесть 2-3 гб и сделать трансформации - sort, group by , join entities - на типичной машине шансы почти нулевые.
никакого смысла городить из этого олимпиадную задачу нет, в спарке почти наверняка вся задачу уместиться в 10 строк кода и будет работать и с 3 гб и с 300 гб файлами на ноутбуке. 99.9% без всякого тюнинга.
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072926
Фотография asv79
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton

А ты пробовал 3х гигбайтный файл прогрузить в java String? Это не в тему этого топика. Просто так.

почему именно в стринг? ты намекаешь на кеширование и пул?
по теме скажу что грузил и большие объекты - например емайл рассылки и файлы там были далеко выше 3 г
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072934
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1
asv79

как так не решает? тс упал по ООМ - дай больше хипа не упадет

ваша наивность умиляет
в java прочесть 2-3 гб и сделать трансформации - sort, group by , join entities - на типичной машине шансы почти нулевые.
никакого смысла городить из этого олимпиадную задачу нет, в спарке почти наверняка вся задачу уместиться в 10 строк кода и будет работать и с 3 гб и с 300 гб файлами на ноутбуке. 99.9% без всякого тюнинга.

Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет.
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072939
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton

Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет.

зачем? "прочесть 2-3 гб и сделать трансформации - sort, group by , join entities" достаточно что бы отмести самопальные велосипеды.
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072961
Sergunka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1
razliv
Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :)

бери spark. во первых не только для этой задачи пригодиться, во вторых 100% гарантия, что прожует. плюс это думю самое близкое к pandas, может и sparkPy можно зпустить. я для халтурки парсил 1с xml файлики - отлично работает и в локальном режиме.


+1 спарк все сделает за милую душу и кода там будет минимум.
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40072988
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1
mayton

Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет.

зачем? "прочесть 2-3 гб и сделать трансформации - sort, group by , join entities" достаточно что бы отмести самопальные велосипеды.

spark - это тяжелая артиллерия. Хотя я тоже голосую за изучение ново-теха. У нас даже шутка такая ходит
- "resume driven development". Это когда ты выбираешь не те технологии которых "необходимо и достаточно",
а те, который позволят прокачать твоё CV.
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40073392
razliv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вроде получилось договорится посылать данные меньшими порциями, слегка оптимизировать действующий код
- надеюсь пролетим :)
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40073397
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
razliv
Вроде получилось договорится посылать данные меньшими порциями, слегка оптимизировать действующий код
- надеюсь пролетим :)
вооот. Против архитектуры глупостями не попрешь.
А могли бы спарк замутить))))
...
Рейтинг: 0 / 0
Библиотека для небольшого етл
    #40073442
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
- Просил я только масла на завтрак мне подать (С) Король из Английской сказки.
...
Рейтинг: 0 / 0
17 сообщений из 42, страница 2 из 2
Форумы / Java [игнор отключен] [закрыт для гостей] / Библиотека для небольшого етл
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]