|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
Я не против Stax. Я просто к тому что память у него может жрать не только исходный документ но и агрегации и сортировки. Здесь уже что Стакс что SAX. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 18:49 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
razliv Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :) очень интересное заявление,Библиотека тут не причем попробуйте увеличить xms xmx до 10 г ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 19:13 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
mayton Учитывая его 3 Гигабайта - JavaStreamApi можно попробовать. Но надо будет расширяться по -Xmx да и то не факт что нам хватит разумных пределов. если он упал по оом без стримов - со стримами он упадет на 1.5 гига ему нужно просто увеличить хип,если нет денег на хип ,тогда пусть создает отдельную тему где мы будем решать нерешаемое) ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 19:21 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
Вот тут пишут что spark-узлам рекомендовано 8Г https://spark.apache.org/docs/latest/hardware-provisioning.html и из них три четверти под нужды собственно spark-машины и хвостик для нужд ОС. При правильном тюнинге объем обрабатываемых данных может быть бесконечным. Надо только тюнить. Поглядывать в мониторинг и разбрасывать датасеты по специальным персистентным структурам (их там 4 типа бывает... кажется memory, disk+memory, ...e.t.c.) ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 19:28 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
razliv Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :) бери spark. во первых не только для этой задачи пригодиться, во вторых 100% гарантия, что прожует. плюс это думю самое близкое к pandas, может и sparkPy можно зпустить. я для халтурки парсил 1с xml файлики - отлично работает и в локальном режиме. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 21:07 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти. Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом. Не могу найти где... может и не здесь а в rsdn или habr. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 21:16 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
mayton Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти. Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом. Не могу найти где... может и не здесь а в rsdn или habr. как так не решает? тс упал по ООМ - дай больше хипа не упадет другое дело,где програмные просчеты и жор памяти напоминает снежный ком- но тогда причем тут вообще наше обсуждение - мы же обсуждаем готовые фреймворки и либы и их падение по оом- где такие проблемы уже были исключены - иначе бы был вселенский вой и мы бы об этом услышали первыми по факту есть ситуация - чел взял файл 1 гиг и попытался его обработать посредством своего аппа ,который был запущен скорей всео с парой гиг хипа,а может и меньше- справедливо получил ООМ и пришел зачем то сюда. 1.непонятно причем тут джава 2.решения на джаве быть не может ,это девопсятина ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 21:24 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
asv79 mayton Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти. Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом. Не могу найти где... может и не здесь а в rsdn или habr. как так не решает? тс упал по ООМ - дай больше хипа не упадет другое дело,где програмные просчеты и жор памяти напоминает снежный ком- но тогда причем тут вообще наше обсуждение - мы же обсуждаем готовые фреймворки и либы и их падение по оом- где такие проблемы уже были исключены - иначе бы был вселенский вой и мы бы об этом услышали первыми по факту есть ситуация - чел взял файл 1 гиг и попытался его обработать посредством своего аппа ,который был запущен скорей всео с парой гиг хипа,а может и меньше- справедливо получил ООМ и пришел зачем то сюда. 1.непонятно причем тут джава 2.решения на джаве быть не может ,это девопсятина А ты пробовал 3х гигбайтный файл прогрузить в java String? Это не в тему этого топика. Просто так. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 21:27 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
asv79 как так не решает? тс упал по ООМ - дай больше хипа не упадет ваша наивность умиляет в java прочесть 2-3 гб и сделать трансформации - sort, group by , join entities - на типичной машине шансы почти нулевые. никакого смысла городить из этого олимпиадную задачу нет, в спарке почти наверняка вся задачу уместиться в 10 строк кода и будет работать и с 3 гб и с 300 гб файлами на ноутбуке. 99.9% без всякого тюнинга. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 22:13 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
mayton А ты пробовал 3х гигбайтный файл прогрузить в java String? Это не в тему этого топика. Просто так. почему именно в стринг? ты намекаешь на кеширование и пул? по теме скажу что грузил и большие объекты - например емайл рассылки и файлы там были далеко выше 3 г ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 22:20 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
H5N1 asv79 как так не решает? тс упал по ООМ - дай больше хипа не упадет ваша наивность умиляет в java прочесть 2-3 гб и сделать трансформации - sort, group by , join entities - на типичной машине шансы почти нулевые. никакого смысла городить из этого олимпиадную задачу нет, в спарке почти наверняка вся задачу уместиться в 10 строк кода и будет работать и с 3 гб и с 300 гб файлами на ноутбуке. 99.9% без всякого тюнинга. Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 22:48 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
mayton Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет. зачем? "прочесть 2-3 гб и сделать трансформации - sort, group by , join entities" достаточно что бы отмести самопальные велосипеды. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2021, 23:03 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
H5N1 razliv Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :) бери spark. во первых не только для этой задачи пригодиться, во вторых 100% гарантия, что прожует. плюс это думю самое близкое к pandas, может и sparkPy можно зпустить. я для халтурки парсил 1с xml файлики - отлично работает и в локальном режиме. +1 спарк все сделает за милую душу и кода там будет минимум. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2021, 03:39 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
H5N1 mayton Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет. зачем? "прочесть 2-3 гб и сделать трансформации - sort, group by , join entities" достаточно что бы отмести самопальные велосипеды. spark - это тяжелая артиллерия. Хотя я тоже голосую за изучение ново-теха. У нас даже шутка такая ходит - "resume driven development". Это когда ты выбираешь не те технологии которых "необходимо и достаточно", а те, который позволят прокачать твоё CV. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2021, 09:36 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
Вроде получилось договорится посылать данные меньшими порциями, слегка оптимизировать действующий код - надеюсь пролетим :) ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2021, 08:17 |
|
Библиотека для небольшого етл
|
|||
---|---|---|---|
#18+
razliv Вроде получилось договорится посылать данные меньшими порциями, слегка оптимизировать действующий код - надеюсь пролетим :) А могли бы спарк замутить)))) ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2021, 08:30 |
|
|
start [/forum/topic.php?fid=59&startmsg=40072854&tid=2120438]: |
0ms |
get settings: |
19ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
50ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
322ms |
get tp. blocked users: |
2ms |
others: | 369ms |
total: | 798ms |
0 / 0 |