|
|
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
golovonometr8 Тб csv с распаковкой, парсингом и вставкой в бд за 14 часов - непорядок?! А за сколько вы хотели? Просто распаковка из gz столько инфы сколько занимает? Часа 3 на сервере? Судя по тестам на меньших данных - после моих правок будет 5ч, не более. Но это хадуп с 84 мапперами и 64 редьюсерами. И логики много. Но любая логика упирается в диск обычно :) Ну или память. Процессор всё одно 80% ждёт память, а то и больше. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.04.2016, 09:17 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
Alexey Tomin, покажи одну строку из csv ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.04.2016, 09:57 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
вадяесли так рассуждать — странно, как работают бд... диск будет тормозом в случае, если у тебя десятки миллионов записей, а в этом случае java вылетит в out of memory намного раньше. либо придется писать модуль для свопа, что будет костылем. в базах существуют индексы, и пр. вещи для обработки данных, намного более заточенные для этого, чем будет написано на java. так что если не знаешь про базы - не надо грешить на диск.. Есть интересная статья Стоунбрейкера где он ругает мультипоточные DBMS/OLTP и считает что это архитектурная ошибка. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.04.2016, 10:43 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
archeliteу меня тестовое задание перед собеседованием, которое нужно написать именно на Java Забей. Этот тест ты завалил. Ищи вакансию попроще. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.04.2016, 13:59 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
Тут еще неясно в какую контору он собеседуется. Если там упор делается на торговые сети к примеру - то соискатель вполне может вывалить решение на SQL. Это будет обсуждаемый вариант. Если геймдев - то там интересно будет знания соискателя в коллекциях и мультипоточности. Я думаю что задача это творческая (наподобие Microsoft-овских Терабайтных строк-дубликатов которые мы обсуждали недавно) и решать ее можно как угодно. Главное убедить тех-лида или персону которая проводит собеседование что ты прав и уверен. А вот уверенности у нашего поциента как раз нет. Мы можем вывалить на него вагон решений но вопрос про OutOfMemory error может его срезать на взлете. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.04.2016, 14:37 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
вадяAlexey Tomin, покажи одну строку из csv Зачем? Там 109 полей, из которых больше половины- числа. "appnexus Standard Feed", если кому-то говорит :D ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.04.2016, 14:51 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
Alexey TominвадяAlexey Tomin, покажи одну строку из csv Зачем? Там 109 полей, из которых больше половины- числа. "appnexus Standard Feed", если кому-то говорит :D интересно как эти данные зайдут в mysql ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.04.2016, 15:30 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
всё-таки покажи, интересно, что там парсить надо, почему сразу в базу не залить? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.04.2016, 17:08 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
Alexey Tomin , http://dev.mysql.com/doc/refman/5.7/en/load-data.html секция set в комментах расписано применение вообще интересно насколько это ускорит ну а чтоб исключить (почти) влияние диска- надо исходный csv и файлы базы держать на разных физических дисках ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.04.2016, 20:36 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
http://www.baeldung.com/java-read-lines-large-file http://www.coderanch.com/t/201866/Performance/java/Parsing-huge-file-reading-memory http://stackoverflow.com/questions/9079447/parsing-a-huge-plain-text-file http://www.quora.com/What-is-the-fastest-way-to-read-a-large-file-in-Java-3-4gb-line-by-line ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.04.2016, 11:52 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
вадя, средства импорта данных из CSV есть в любой нормальной DBMS но задача не про это. Это задача - на разработку а не на знание админских утилит. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.04.2016, 12:46 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
Kenny Fartman http://www.baeldung.com/java-read-lines-large-file http://www.coderanch.com/t/201866/Performance/java/Parsing-huge-file-reading-memory http://stackoverflow.com/questions/9079447/parsing-a-huge-plain-text-file http://www.quora.com/What-is-the-fastest-way-to-read-a-large-file-in-Java-3-4gb-line-by-line https://habrahabr.ru/company/luxoft/blog/278233/ - тут примеры с врменем загруки mayton вадя, средства импорта данных из CSV есть в любой нормальной DBMS но задача не про это. Это задача - на разработку а не на знание админских утилит я уже не о проблеме ТС, меня интересует задача Alexey Tomin - и вариант её решения с помощью mysql. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.04.2016, 15:22 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
вадявсё-таки покажи, интересно, что там парсить надо, почему сразу в базу не залить? В MySQL? Там выжимка грузится- иначе БД треснет.Мы не настолько богаты, чтобы MySQL терабайты гонять- hadoop дешевле выходит. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.04.2016, 19:34 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
archeliteфайл .csv содержит строки типа 1455812018,user2, http://ru.wikipedia.org,100 1455812019,user10, http://hh.ru,30 1455812968,user3, http://google.com,60 1455812411,user10, http://hh.ru,90 1455812684,user3, http://vk.com,50 1455839970,user1, http://ru.wikipedia.org,70 Каков максимальный размер входного файла ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.04.2016, 20:43 |
|
||
|
Многопоточный .csv парсер
|
|||
|---|---|---|---|
|
#18+
MillisUserNameURL???1455812018user2 http://ru.wikipedia.org 1001455812019user10 http://hh.ru 301455812968user3 http://google.com 601455812411user10 http://hh.ru 901455812684user3 http://vk.com 501455839970user1 http://ru.wikipedia.org 70 Имена пользователей начинаются с префикса user . Для оптимальности можно их убрать, оставив только номера. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.04.2016, 21:07 |
|
||
|
|

start [/forum/topic.php?fid=59&startmsg=39216301&tid=2124156]: |
0ms |
get settings: |
8ms |
get forum list: |
11ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
64ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
38ms |
get tp. blocked users: |
1ms |
| others: | 214ms |
| total: | 352ms |

| 0 / 0 |
