powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Java [игнор отключен] [закрыт для гостей] / Многопоточный .csv парсер
16 сообщений из 66, страница 3 из 3
Многопоточный .csv парсер
    #39216301
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
golovonometr8 Тб csv с распаковкой, парсингом и вставкой в бд за 14 часов - непорядок?! А за сколько вы хотели?
Просто распаковка из gz столько инфы сколько занимает? Часа 3 на сервере?

Судя по тестам на меньших данных - после моих правок будет 5ч, не более.
Но это хадуп с 84 мапперами и 64 редьюсерами. И логики много.
Но любая логика упирается в диск обычно :)
Ну или память.
Процессор всё одно 80% ждёт память, а то и больше.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39216329
вадя
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tomin,
покажи одну строку из csv
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39216381
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вадяесли так рассуждать — странно, как работают бд...
диск будет тормозом в случае, если у тебя десятки миллионов записей, а в этом случае java вылетит в out of memory намного раньше. либо придется писать модуль для свопа, что будет костылем. в базах существуют индексы, и пр. вещи для обработки данных, намного более заточенные для этого, чем будет написано на java. так что если не знаешь про базы - не надо грешить на диск..
Есть интересная статья Стоунбрейкера где он ругает мультипоточные DBMS/OLTP и считает что
это архитектурная ошибка.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39216606
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archeliteу меня тестовое задание перед собеседованием, которое нужно написать именно на Java
Забей. Этот тест ты завалил. Ищи вакансию попроще.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39216642
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Тут еще неясно в какую контору он собеседуется. Если там упор делается на
торговые сети к примеру - то соискатель вполне может вывалить решение на
SQL. Это будет обсуждаемый вариант. Если геймдев - то там интересно
будет знания соискателя в коллекциях и мультипоточности.

Я думаю что задача это творческая (наподобие Microsoft-овских Терабайтных
строк-дубликатов которые мы обсуждали недавно) и решать ее можно
как угодно. Главное убедить тех-лида или персону которая проводит
собеседование что ты прав и уверен. А вот уверенности у нашего
поциента как раз нет. Мы можем вывалить на него вагон решений
но вопрос про OutOfMemory error может его срезать на взлете.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39216663
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вадяAlexey Tomin,
покажи одну строку из csv

Зачем? Там 109 полей, из которых больше половины- числа.
"appnexus Standard Feed", если кому-то говорит :D
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39216715
вадя
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey TominвадяAlexey Tomin,
покажи одну строку из csv

Зачем? Там 109 полей, из которых больше половины- числа.
"appnexus Standard Feed", если кому-то говорит :D
интересно как эти данные зайдут в mysql
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39216823
вадя
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
всё-таки покажи, интересно, что там парсить надо, почему сразу в базу не залить?
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39216944
вадя
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Tomin ,
http://dev.mysql.com/doc/refman/5.7/en/load-data.html
секция set
в комментах расписано применение
вообще интересно насколько это ускорит
ну а чтоб исключить (почти) влияние диска- надо исходный csv и файлы базы держать на разных физических дисках
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39217107
Kenny Fartman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39217117
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вадя, средства импорта данных из CSV есть в любой нормальной DBMS
но задача не про это. Это задача - на разработку а не на знание
админских утилит.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39217151
вадя
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Kenny Fartman http://www.baeldung.com/java-read-lines-large-file
http://www.coderanch.com/t/201866/Performance/java/Parsing-huge-file-reading-memory
http://stackoverflow.com/questions/9079447/parsing-a-huge-plain-text-file
http://www.quora.com/What-is-the-fastest-way-to-read-a-large-file-in-Java-3-4gb-line-by-line

https://habrahabr.ru/company/luxoft/blog/278233/ - тут примеры с врменем загруки


mayton вадя, средства импорта данных из CSV есть в любой нормальной DBMS
но задача не про это. Это задача - на разработку а не на знание
админских утилит
я уже не о проблеме ТС,
меня интересует задача Alexey Tomin - и вариант её решения с помощью mysql.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39217291
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вадявсё-таки покажи, интересно, что там парсить надо, почему сразу в базу не залить?

В MySQL? Там выжимка грузится- иначе БД треснет.Мы не настолько богаты, чтобы MySQL терабайты гонять- hadoop дешевле выходит.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39217336
Фотография Usman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
archeliteфайл .csv содержит строки типа

1455812018,user2, http://ru.wikipedia.org,100
1455812019,user10, http://hh.ru,30
1455812968,user3, http://google.com,60
1455812411,user10, http://hh.ru,90
1455812684,user3, http://vk.com,50
1455839970,user1, http://ru.wikipedia.org,70 Каков максимальный размер входного файла ?
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39217356
Фотография Usman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MillisUserNameURL???1455812018user2 http://ru.wikipedia.org 1001455812019user10 http://hh.ru 301455812968user3 http://google.com 601455812411user10 http://hh.ru 901455812684user3 http://vk.com 501455839970user1 http://ru.wikipedia.org 70
Имена пользователей начинаются с префикса user .
Для оптимальности можно их убрать, оставив только номера.
...
Рейтинг: 0 / 0
Многопоточный .csv парсер
    #39217437
rema174
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
UsmanИмена пользователей начинаются с префикса user .
Для оптимальности можно их убрать, оставив только номера.
имена могут быть любыми, но если повторяются, то афтар усредняет значение по последней колонке
...
Рейтинг: 0 / 0
16 сообщений из 66, страница 3 из 3
Форумы / Java [игнор отключен] [закрыт для гостей] / Многопоточный .csv парсер
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]