| 
 | 
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Я не против Stax. Я просто к тому что память у него может жрать не только исходный документ но и агрегации и сортировки. Здесь уже что Стакс что SAX. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 18:49 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  razliv Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :) очень интересное заявление,Библиотека тут не причем попробуйте увеличить xms xmx до 10 г ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 19:13 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  mayton Учитывая его 3 Гигабайта - JavaStreamApi можно попробовать. Но надо будет расширяться по -Xmx да и то не факт что нам хватит разумных пределов. если он упал по оом без стримов - со стримами он упадет на 1.5 гига ему нужно просто увеличить хип,если нет денег на хип ,тогда пусть создает отдельную тему где мы будем решать нерешаемое) ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 19:21 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Вот тут пишут что spark-узлам рекомендовано 8Г  https://spark.apache.org/docs/latest/hardware-provisioning.html  и из них три четверти под нужды собственно spark-машины и хвостик для нужд ОС. При правильном тюнинге объем обрабатываемых данных может быть бесконечным. Надо только тюнить. Поглядывать в мониторинг и разбрасывать датасеты по специальным персистентным структурам (их там 4 типа бывает... кажется memory, disk+memory, ...e.t.c.) ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 19:28 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  razliv Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :) бери spark. во первых не только для этой задачи пригодиться, во вторых 100% гарантия, что прожует. плюс это думю самое близкое к pandas, может и sparkPy можно зпустить. я для халтурки парсил 1с xml файлики - отлично работает и в локальном режиме. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 21:07 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти. Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом. Не могу найти где... может и не здесь а в rsdn или habr. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 21:16 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  mayton Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти. Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом. Не могу найти где... может и не здесь а в rsdn или habr. как так не решает? тс упал по ООМ - дай больше хипа не упадет другое дело,где програмные просчеты и жор памяти напоминает снежный ком- но тогда причем тут вообще наше обсуждение - мы же обсуждаем готовые фреймворки и либы и их падение по оом- где такие проблемы уже были исключены - иначе бы был вселенский вой и мы бы об этом услышали первыми по факту есть ситуация - чел взял файл 1 гиг и попытался его обработать посредством своего аппа ,который был запущен скорей всео с парой гиг хипа,а может и меньше- справедливо получил ООМ и пришел зачем то сюда. 1.непонятно причем тут джава 2.решения на джаве быть не может ,это девопсятина ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 21:24 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  asv79 mayton Простое растягивание -Xmx кстати не решает вообще всех проблем скейлинга памяти. Шутки ради... где-то был топик где мы растили толстую строку StringBuilder-ом. Не могу найти где... может и не здесь а в rsdn или habr. как так не решает? тс упал по ООМ - дай больше хипа не упадет другое дело,где програмные просчеты и жор памяти напоминает снежный ком- но тогда причем тут вообще наше обсуждение - мы же обсуждаем готовые фреймворки и либы и их падение по оом- где такие проблемы уже были исключены - иначе бы был вселенский вой и мы бы об этом услышали первыми по факту есть ситуация - чел взял файл 1 гиг и попытался его обработать посредством своего аппа ,который был запущен скорей всео с парой гиг хипа,а может и меньше- справедливо получил ООМ и пришел зачем то сюда. 1.непонятно причем тут джава 2.решения на джаве быть не может ,это девопсятина А ты пробовал 3х гигбайтный файл прогрузить в java String? Это не в тему этого топика. Просто так. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 21:27 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  asv79 как так не решает? тс упал по ООМ - дай больше хипа не упадет ваша наивность умиляет в java прочесть 2-3 гб и сделать трансформации - sort, group by , join entities - на типичной машине шансы почти нулевые. никакого смысла городить из этого олимпиадную задачу нет, в спарке почти наверняка вся задачу уместиться в 10 строк кода и будет работать и с 3 гб и с 300 гб файлами на ноутбуке. 99.9% без всякого тюнинга. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 22:13 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  mayton А ты пробовал 3х гигбайтный файл прогрузить в java String? Это не в тему этого топика. Просто так. почему именно в стринг? ты намекаешь на кеширование и пул? по теме скажу что грузил и большие объекты - например емайл рассылки и файлы там были далеко выше 3 г ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 22:20 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  H5N1 asv79 как так не решает? тс упал по ООМ - дай больше хипа не упадет ваша наивность умиляет в java прочесть 2-3 гб и сделать трансформации - sort, group by , join entities - на типичной машине шансы почти нулевые. никакого смысла городить из этого олимпиадную задачу нет, в спарке почти наверняка вся задачу уместиться в 10 строк кода и будет работать и с 3 гб и с 300 гб файлами на ноутбуке. 99.9% без всякого тюнинга. Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 22:48 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  mayton Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет. зачем? "прочесть 2-3 гб и сделать трансформации - sort, group by , join entities" достаточно что бы отмести самопальные велосипеды. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 25.05.2021, 23:03 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  H5N1 razliv Основная проблема то - что большинство библиотек, при файлах выше гигабайта, выбивают out of memory :) бери spark. во первых не только для этой задачи пригодиться, во вторых 100% гарантия, что прожует. плюс это думю самое близкое к pandas, может и sparkPy можно зпустить. я для халтурки парсил 1с xml файлики - отлично работает и в локальном режиме. +1 спарк все сделает за милую душу и кода там будет минимум. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 26.05.2021, 03:39 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  H5N1 mayton Я-бы предложил заслушать постановку реальной задачи. Тут ... бабка надвое сказала. Или помру или нет. зачем? "прочесть 2-3 гб и сделать трансформации - sort, group by , join entities" достаточно что бы отмести самопальные велосипеды. spark - это тяжелая артиллерия. Хотя я тоже голосую за изучение ново-теха. У нас даже шутка такая ходит - "resume driven development". Это когда ты выбираешь не те технологии которых "необходимо и достаточно", а те, который позволят прокачать твоё CV. ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 26.05.2021, 09:36 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  Вроде получилось договорится посылать данные меньшими порциями, слегка оптимизировать действующий код  - надеюсь пролетим :) ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 27.05.2021, 08:17 | 
  
  
  
   | 
||
| 
 
Библиотека для небольшого етл 
 | 
|||
|---|---|---|---|
| 
 #18+ 
    
  razliv Вроде получилось договорится посылать данные меньшими порциями, слегка оптимизировать действующий код  - надеюсь пролетим :) А могли бы спарк замутить)))) ...  | 
|||
| 
 : 
 Нравится:
      
  Не нравится:
      
  
   | 
|||
| 27.05.2021, 08:30 | 
  
  
  
   | 
||
| 
 | 

start [/forum/topic.php?fid=59&msg=40072863&tid=2120438]:  | 
    0ms | 
get settings:  | 
    9ms | 
get forum list:  | 
    14ms | 
check forum access:  | 
    4ms | 
check topic access:  | 
    4ms | 
track hit:  | 
    65ms | 
get topic data:  | 
    11ms | 
get forum data:  | 
    3ms | 
get page messages:  | 
    57ms | 
get tp. blocked users:  | 
    2ms | 
| others: | 230ms | 
| total: | 399ms | 

| 0 / 0 | 

    Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
    
    
    «На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
    
    
    ... ля, ля, ля ...