powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Java [игнор отключен] [закрыт для гостей] / Многопоточный .csv парсер
25 сообщений из 66, страница 1 из 3
Многопоточный .csv парсер
    #39215473
archelite
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Доброго времени суток)
Суть вопроса думаю понятна из заголовка.

файл .csv содержит строки типа

1455812018,user2, http://ru.wikipedia.org,100
1455812019,user10, http://hh.ru,30
1455812968,user3, http://google.com,60
1455812411,user10, http://hh.ru,90
1455812684,user3, http://vk.com,50
1455839970,user1, http://ru.wikipedia.org,70

нужно распарсить по запятой и записать в другой .csv файл вот таким образом

18-FEB-2016

user2, https://ru.wikipedia.org,100
user3, http://google.com,60
user3, http://vk.com,50
user10, http://hh.ru,60

19-FEB-2016

user1, http://ru.wikipedia.org,70

из первоначальных строк предлагается получить поля класса(date, userID, URL, time).

Я пока что сделал преобразование даты и имею сортированную по userID коллекцию объектов с 4мя стринговыми полями
Содержимое выглядит так

19-фев-2016 user1 http://ru.wikipedia.org 70
18-фев-2016 user2 http://ru.wikipedia.org 100
18-фев-2016 user3 http://google.com 60
18-фев-2016 user3 http://vk.com 50
18-фев-2016 user10 http://hh.ru 30
18-фев-2016 user10 http://hh.ru 90

В случае если userID и URL совпадают, то необходимо посчитать среднее арифметическое(avg) из значений time и записать только 1 объект, содержащий avg.

Также в выходном файле объекты должны быть сортированы по userID.

Если значение "date" в объектах совпадает то делается только 1 запись для этой даты а затем помещаются значения полей для всех объектов, учитывая вышеописанные условия, пока date не получит новое значение.

Затем для всех действий есть такое условие: папка с .csv файлами мониторится на наличие новых файлов. Одновременно в потоках могут обрабатываться до 10 файлов(1 файл = 1поток)(макс. 10 потоков), а остальные файлы должны быть помещены в очередь и начинать обрабатываться первым из освободившихся потоков.

Подскажите с чего начать и в какой последовательности выполнять условия?
Мои попытки пока не увенчались успехами
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215478
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Нафига?

CSV крайне простой формат, что бы городить многопоточность. IMHO
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215479
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archelite,

Замах на целый многопоточный парсер, а по факту однопоточный. Многопоточный парсер парсит один файл в несколько потоков. Тут у вас тупо запуск однопоточного парсера много раз с раздельными ресурсами.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215508
Garrick
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archelite,

ИХМО, проще загрузить всё в какую-нибудь СУБД (многие умеют загружать данные из CSV файлов) и написать правильный SELECT по этим данным. А может быть вообще Excel?
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215518
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если задача парсить логи и они большие, то СУБД может и не справиться за разумное время. AFAIK.

Проще ручками и значительно быстрее (по ресурсам в сотни, тысячи раз).

Только проблемы в производительно совсем не те, что вынесены в заголовок темы. Ну и с учетом, что автор темы думает в концепции ООП ("из первоначальных строк предлагается получить класса", "имею сортированную по userID коллекцию объектов") подозреваю, что на большом массиве входных данных будут проблемы с памятью.

Если нужно обрабатывать гигобайты логов - то думать нужно в другом направлении, если единицы мегабайт - то проблема производительности не встает, многопоточность даром не нужна (только лишние ошибки).

IMHO
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215520
archelite
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Задание состоит именно в парсинге .csv и именно с применением потоков
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215523
archelite
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid KudryavtsevЕсли задача парсить логи и они большие, то СУБД может и не справиться за разумное время. AFAIK.

Проще ручками и значительно быстрее (по ресурсам в сотни, тысячи раз).

Только проблемы в производительно совсем не те, что вынесены в заголовок темы. Ну и с учетом, что автор темы думает в концепции ООП ("из первоначальных строк предлагается получить класса", "имею сортированную по userID коллекцию объектов") подозреваю, что на большом массиве входных данных будут проблемы с памятью.

Если нужно обрабатывать гигобайты логов - то думать нужно в другом направлении, если единицы мегабайт - то проблема производительности не встает, многопоточность даром не нужна (только лишние ошибки).

IMHO

это тестовое задание, я бы и сам переработал структуру выходных данных, так чтобы не ломать голову целый день.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215524
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Нафига?

Или это студенческое задание на применение потоков. Тогда:
1. Тема плохо названа. Т.к.
BlazkowiczЗамах на целый многопоточный парсер, а по факту однопоточный. Многопоточный парсер парсит один файл в несколько потоков. Тут у вас тупо запуск однопоточного парсера много раз с раздельными ресурсами.
2.
http://www.sql.ru/forum/941371/studentam-zhelaushhim-pomoshhi
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215549
archelite
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonid Kudryavtsev,

Спасибо, это не студенческое задание)

здесь главное алгоритм парсинга, с потоками проблем возникнуть не должно, я знаю как это сделать в принципе.

У меня есть несколько идей.

Сначала в цикле можно вытаскивать поле time и складывать его значение со следующим, в случае если соблюдается условие userID && URL == next userID && URL.

Затем создать объект с новым значением time, удалить из коллекции предыдущие объекты с совпадающими значениями и записать новый.

Затем сортировать по дате, а потом уже что-то придумывать с датой

Сейчас как раз мучаюсь с попыткой получения среднего времени, подскажите как правильно сделать счетчик объектов, которые удовлетворяют условию userID && URL == next userID && URL ?
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215585
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archelite, мне лично вообще не понятно, с чем Вы боретесь.

Если я правильно представляю задачу, она сводиться к группировке (по дате) + последующей сортировке (по пользователю).

Первое стандартный HashMap, второе просто стандартный sort. Это если все хранить в оперативной памяти. Если памяти хватает - ну и ладно. Если есть проблемы, тогда нужно будет изгаляться

Дынные в единицы/десятки мегабайт проблем вызывать не должны, а в гигабайты уже наверное можно придумать какой-то более сложный алгоритм. Например процесс разбить на две части. Для каждой даты (даже если 365 дней в году - это не так и много) просто открыть временный файл (+ большой буфер ввода вывода в несколько мегабайт) и писать туда промежуточные данные. Потом вторым проходом отсортировать полученные файлы.

Можно пойти дальше, для каждой даты несколько небольших отсортированных файлов (единицы/десятки Mb), результат сортировать слиянием.

IMHO & AFAIK
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215593
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archelite, смотри. Мультипоточность тебе тут толком не поможет. Потому что узкое
место в этой задаче - последовательное чтение файла. Если ты свой ноут нагрузишь
10/100/1000 потоков CSV парсеров то это не даст производительности.

Мне эта задачка очень напоминает учебные примеры Hadoop/BigData. Там берется
csv файл (обычно в терабайт чтоб мало не показалось) режется на куски (пофиг
какого размера можно даже разного) и кидается в специальное дисковое хранилище
(по архитектуре похоже на RAID5 но суть другая) и дальше ты пишешь логику которая
делает отображение и свёртку. Эту логику деплоишь в хадуп-кластер и она сама находит
кусочки файлов и сворачивает и публикует резалт. Дисковая нагрузка - средняя
из за того что псевдо-случайные потоки получают псевдо-случайный доступ к порциям
твоего CSV файла (а также к его зеркальным копиям).
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215614
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archeliteздесь главное алгоритм парсинга, с потоками проблем возникнуть не должно, я знаю как это сделать в принципе.

Тут почти нет конкурентной многопоточности. Каждый поток читает свой файл. Обрабатывает свои данные и складывает их в БД, которая вполне себе разруливает транзакции. Так?
Единственно что, если вас заботит производительность, то надо учитывать, что если разные потоки пытаются вычитать много разных файлов одновременно, это сильно снижает производительность на дисковых устройствах по сравнению с последовательным чтением одного файла.

И еще у вас проблема с идентификацией парсинга. Парсинг это вычитать 3 значения из строки файла в 3 переменных в памяти. И так для всех строк. На этом парсинг зананчивается. Остальное, это уже обработка данных и бизнес-логика вашего приложения. К парсингу это отношения не имеет.

Поэтому я бы на вашем месте выкинул из задачи слова про потоки и парсинг и сконцентрировался на проблемах с обработкой данных. В чем именно проблема - не понятно. Вы просто расписали как должно быть. Но почему это вызывает затруденения не объяснили.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215625
lleming
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
etl какой нить. только логику настроить
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215632
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
llemingetl какой нить. только логику настроить
Какой?

В лесу мышей все обижали. Они совершенно не представляли, что с этим делать, пока не решили пойти за советом к Сове как к самому мудрому члену их лесного сообщества. Сова была отзывчива и, немного подумав, сказала: «Вам нужно стать ежиками». «Гениально! – закричали мыши. – Но как же мы ими станем?» «Не знаю, – ответила Сова, – я – стратегический консультант»...

Стратегический консалтинг – серьезно и не очень
http://old.e-xecutive.ru/friday/article_3979/
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215639
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leonid Kudryavtsevllemingetl какой нить. только логику настроить
Какой?

Kettle же. Другой за бесплатно еще пойди поищи.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215685
archelite
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Blazkowicz,

Вы просто расписали как должно быть. Но почему это вызывает затруденения не объяснили.

Я еще не очень хорошо разбираюсь в Java)

Начнем по порядку
Выше мне подсказали использовать HashMap, я создал HashMap<String, String> в качестве ключа в цикле помещаю, значение date, а в качестве значения конкатенирую строки со значениями остальных полей.
Получился map который содержит 2 пары, но только часть данных в значении.

Пожалуй проще будет, если выложу код

Код: java
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
public class ParseData implements Comparable<ParseData> {
   
    private File inDir = new File("C:\\Users\\User\\Desktop\\tmp"); 
    private File outDir = new File("C:\\Users\\User\\Desktop\\tmp2");
    private File[] files;
    private Scanner sc;
    private String[] stringsBuffer;
    private Date unixDate = new Date();
    private long tmpdate;
    private SimpleDateFormat sdf = new SimpleDateFormat("dd-MMM-yyyy");
    private String formattedDate;

    //private ArrayList<ParseData> tmplist = new ArrayList<>();
   // private ArrayList<ParseData> dataList = new ArrayList<>();
    private int avgTime = 0;
    //private StringBuilder sb = new StringBuilder();
    private int counter = 0;
    private HashMap<String, String> map = new HashMap<>();

}

public void parseLogData() {
        
        try {
            if (inDir.exists() && inDir.isDirectory() && inDir.canRead()) {
                files = inDir.listFiles();
                for (File f : files) {
                    if (f.getName().endsWith(".csv")) {
                        sc = new Scanner(f);
                        while (sc.hasNext()) {
                            String next = sc.nextLine();
                            stringsBuffer = next.split(",");
                            tmpdate = (long) (Long.parseLong(stringsBuffer[0])) * 1000;
                            unixDate.setTime(tmpdate);
                            formattedDate = sdf.format(unixDate);
                            for (int i = 0; i < stringsBuffer.length; i++) {
                                stringsBuffer[0] = formattedDate;
                                map.put(stringsBuffer[0], "\n"+stringsBuffer[1]+"\n"+stringsBuffer[2]+"\n"+stringsBuffer[3]+"\n");
                            }
                            
//                          tmplist.add(new ParseData(stringsBuffer[0], stringsBuffer[1], 
//                                                    stringsBuffer[2], stringsBuffer[3]));
                        }                        
                    }                    
                    Set set = map.entrySet();
                    Iterator it = set.iterator();
                    while (it.hasNext()) {
                        Map.Entry me = (Map.Entry) it.next();
                        System.out.println(me.getKey()+""+ me.getValue());                     
                    }
                }
            } else {
                System.err.println("The directory does not exist or you do not have access");
            }
        } catch (FileNotFoundException ex) {
            System.err.println(ex.getMessage());
        }        
    }
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215686
lleming
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Во вложении готовый проект
kettle взять здесь http://community.pentaho.com/projects/data-integration/
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215692
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archeliteздесь главное алгоритм парсинга, с потоками проблем возникнуть не должно
А с парсингом-то какие проблемы? Читаешь строку, выделяешь первое поле, скидываешь в очередь соответствующему потоку, который уже и выполняет остальной парсинг и запись в нужный файл.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215709
lleming
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
там правда чуть чуть поменять надо чтобы наименования файлов как нужно было
и кавычки в csv там же можно настроить

а вот sort я забыл добавить
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215714
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archeliteВыше мне подсказали использовать HashMap, я создал HashMap<String, String>...
Я бы делал как-то так:

1. Создаешь класс под данные
Код: sql
1.
2.
3.
4.
5.
class MyData {
    String date;
    String userName;
    String url;
}


2. создаешь HashMap:
Код: sql
1.
HashMap<String, ArrayList<MyData>> map;



3. читаешь входные данные и одновременно группируешь по дням

Код: sql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
while ( ! eof ) {
   String s = readLine();
   MyData data = parse( s );
   // Группировка
   String k = data.date;
   ArrayList<MyData> v = map.get( k );
   if ( v==null ) {
      v = new ArrayList<MyData>();
      map.put( k, v );
   }
   v.add( data );
}



Данные по датам сгруппированы, уже хорошо.

4. Выводишь данные в порядке userId
Код: sql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
   // Сортируем получившиеся дни
   ArraList<String> keys = map.
   keys.addAll( map.keys() );
   keys.sort();
   // Выводим данные по дням
   for ( String k : keys ) {
      ArrayList<MyData> list = map.get( k );
      // Сортируем данные в пределах дня
      list.sort();
     // Выводим заголовок
     println( k );
     // Выводим данные для данного дня
      for ( MyData data : list ) {
          println( data.userName + "," + data.url );
      }
   }



...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215718
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archeliteЯ еще не очень хорошо разбираюсь в Java)

А Java тут не при чем. Вам нужен алгоритм решения вашей проблемы. Язык и платформа реализации вторичны.

archeliteНачнем по порядку
Выше мне подсказали использовать HashMap, я создал HashMap<String, String> в качестве ключа в цикле помещаю, значение date, а в качестве значения конкатенирую строки со значениями остальных полей.
Получился map который содержит 2 пары, но только часть данных в значении.
Пожалуй проще будет, если выложу код

Разделите три подзадачи в разные реализации.
1) Мониторить каталог и запускать обработку
2) Парсить CSV в объекты
3) Обрабатывать объекты
4) Экспортировать объекты в нужный формат

Не нужно делать один класс, который реализует все. Это будет "золотой молоток".
Для CSV есть очень клевый парсер Apache Commons CSV
https://commons.apache.org/proper/commons-csv/
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215723
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archeliteВ случае если userID и URL совпадают, то необходимо посчитать среднее арифметическое(avg) из значений time и записать только 1 объект, содержащий avg.

Также в выходном файле объекты должны быть сортированы по userID.

Если значение "date" в объектах совпадает то делается только 1 запись для этой даты а затем помещаются значения полей для всех объектов, учитывая вышеописанные условия, пока date не получит новое значение.

Есть куча стандартных терминов. У вас же вместо них какие-то витьеватные инсинуации формулировки.
"Сгруппировать записи по пользователю". "Агрегировать среднеарифметическое по дате". Так что ли?
Это все реализовано, хоть в SQL, хоть в Java Stream API. Не обязательно самому корячиться на hashmap
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215774
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archeliteЯ еще не очень хорошо разбираюсь в Java)

Отложи лучше многопоточность. Вообще забудь. Любая даже самая простая
мультипоточность - завалит тебя на сдаче.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215794
archelite
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Код: java
1.
2.
3.
4.
5.
class MyData {
    String date;
    String userName;
    String url;
}



а как же время? должно быть еще поле

Код: java
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
while ( ! eof ) {
   String s = readLine();
   MyData data = parse( s );  в этой строке имеется ввиду получение массива строк?
   // Группировка
   String k = data.date;
   ArrayList<MyData> v = map.get( k );
   if ( v==null ) {
      v = new ArrayList<MyData>();
      map.put( k, v );
   }
   v.add( data );
}



авторРазделите три подзадачи в разные реализации.
1) Мониторить каталог и запускать обработку
2) Парсить CSV в объекты
3) Обрабатывать объекты
4) Экспортировать объекты в нужный формат

Примерно так и хотел сделать, только для каждого пункта не классы а методы.

авторЕсть куча стандартных терминов. У вас же вместо них какие-то витьеватные инсинуации формулировки.
"Сгруппировать записи по пользователю". "Агрегировать среднеарифметическое по дате". Так что ли?
Это все реализовано, хоть в SQL, хоть в Java Stream API. Не обязательно самому корячиться на hashmap

Да всё так, но у меня тестовое задание перед собеседованием, которое нужно написать именно на Java, так что придется корячиться)

Посмотрел про Java Stream API, должно быть классная штука, только совершенно незнакомая)
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39215843
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archeliteа как же время? должно быть еще поле

А так же валидация и типизация. Вас что удерживает от того чтобы добавить 4е поле в класс?

Код: java
1.
   MyData data = parse( s );  в этой строке имеется ввиду получение массива строк?


Это псевдо-код чтобы показать идею.

archeliteПримерно так и хотел сделать, только для каждого пункта не классы а методы.

Будет процедурное программирование. Работодатель не оценит.

archeliteДа всё так, но у меня тестовое задание перед собеседованием, которое нужно написать именно на Java, так что придется корячиться)

Так я о терминологии. В задании тоже не слова нет о группировках и агрегациях?

archeliteПосмотрел про Java Stream API, должно быть классная штука, только совершенно незнакомая)
Ах, что же делать.
...
Рейтинг: 0 / 0
25 сообщений из 66, страница 1 из 3
Форумы / Java [игнор отключен] [закрыт для гостей] / Многопоточный .csv парсер
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]