Google storage api - попытка обойти багу... / Java

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Java [игнор отключен] [закрыт для гостей] / Google storage api - попытка обойти багу...

25 сообщений из 27, страница 1 из 2

все

Google storage api - попытка обойти багу...

#39134128

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Добрый день!

Есть файлы на google storage. Мне надо скачать его.
Использую

Код: sql

1.
2.
3.
4.
5.
6.
7.

        Storage.Objects objects = GoogleStorageFetcherMapper.createStorage(accessToken).objects();
        InputStream inputStream = objects.get(bucket, fileName).executeMediaAsInputStream();
        byte[] buf = byte[1024*1024];
        int size;
        while (size = inputStream.read(buf) >= 0) { 
            ....
        }

Обнаружил, что API может вернуть -1 РАНЬШЕ чем файл закончился (можно заранее получить размер и проверять скачанный объём).
Поборол -при ошибке создаю объект заново и продолжаю с места, где меня обманули :)

Теперь далее- файл это gz в котором текст с кучей строк. Мне удобнее читать сразу строки, без создания временного файла.
Сделал так- свой наследний InputStream, который реализован поверх API и реализует разные read.
Там всё просто:

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.

    @Override
    public int read(byte[] buffer, int offset, int length) throws IOException {
      ....
            int bytesRead = inputStream.read(buffer, offset, length);
            if (bytesRead >= 0) {
                position += bytesRead;
                return bytesRead;
            } else if (position < fileSize) {
                // пересоздаём inputStream и пробуем получить ещё данных.
            } else {
                return bytesRead;
            }

После этого поверх моего InputStream навернул

Код: sql

1.
2.

    BufferedReader reader = new BufferedReader(new InputStreamReader(new GZIPInputStream(new BufferedInputStream(inputStream))));
    while ((line = reader.readLine()) != null) {...}

Вот только засада- "пересоздаём inputStream и пробуем получить ещё данных" никогда не вызывается, но закачивание так же ИНОГДА обрывается.
Приходится (продолжить скачивание с места обрыва нереально) качать всё заново.
При этом ошибок нет, просто получены не все строки.

Куда копать? Куча обёрток сильно затрудняет отладку (да и пойсмать это очень сложно- надо час-другой работы).

--
Алексей.

...

Рейтинг:

0 / 0

22.12.2015, 09:28:14

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134200

irbis_al

Участник

Откуда: Симферополь

Сообщения: 1 776

Рейтинг: 0 / 0

Alexey Tomin,
[quot]
Storage.Objects objects = GoogleStorageFetcherMapper.createStorage(accessToken).objects();
InputStream inputStream = objects.get(bucket, fileName).executeMediaAsInputStream();
byte[] buf = byte[1024*1024];
int size;
while (size = inputStream.read(buf) >= 0) {
....
}
[quot]

У Меня тоже (правда по сокетам такое наблюдалось)
Мне помогло перед
А попробуйте небольшую задержку сделать

Код: java

1.
2.
3.

while (size = inputStream.read(buf) >= 0) { 
            ....
        }

Поставить задержку

Код: java

1.
2.
3.
4.

Thread.CurrentThread.sleep(80)
while (size = inputStream.read(buf) >= 0) { 
            ....
        }

И данные подтягивались всегда...в чём была магия так и не понял.

...

Рейтинг:

0 / 0

22.12.2015, 10:49:51

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134230

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

Я бы остановил в дебаге и посмотрел что там за InputStream - напрямую ли читает из сокета или локально куда лезет.
Ну и там дебаг можно настроить чтобы дампить HTTP. Есть смысл посмотреть на заголовки от сервера, чтобы понять, либо сервер только часть присылает, либо это таки правда бага в гугловом клиенте.

...

Рейтинг:

0 / 0

22.12.2015, 11:10:10

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134243

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

[quot irbis_al]А попробуйте небольшую задержку сделать

У Вас задержка перед while, а проблемы у меня- В while.
Например скачалось 500Мб из 3Гб и пришло -1.

...

Рейтинг:

0 / 0

22.12.2015, 11:22:25

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134245

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

BlazkowiczЯ бы остановил в дебаге и посмотрел что там за InputStream - напрямую ли читает из сокета или локально куда лезет.
Ну и там дебаг можно настроить чтобы дампить HTTP. Есть смысл посмотреть на заголовки от сервера, чтобы понять, либо сервер только часть присылает, либо это таки правда бага в гугловом клиенте.

Клиент лезет по http. Видимо -1 это из-за особенности http, в котором размер файла как-бы неизвестен.
Но это-то я победил.

Вопрос скорее как разгребать ошибку, когда налету идёт gunzip...

...

Рейтинг:

0 / 0

22.12.2015, 11:23:40

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134271

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

Alexey Tomin,

Не очень понимаю зачем там GZIP. Гугловый HTTP клиент и так его поддерживает. Ну, предположим у вас по ТЗ файлы такие. Ладно. Тогда надо проверить что твой код воткнут до GZIPInputStream. Потому как считать можно байты прочитаные, а можно распакованые, которые, очевидно не то что нужно.

...

Рейтинг:

0 / 0

22.12.2015, 11:36:37

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134290

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

BlazkowiczНе очень понимаю зачем там GZIP. Гугловый HTTP клиент и так его поддерживает. Ну, предположим у вас по ТЗ файлы такие.

Файлы не наши, это входные данные.
На хадупе gzip плохо поддерживаются, поэтому я их пережимаю в gzip2. Быстрее всего это сделать "на лету".

BlazkowiczТогда надо проверить что твой код воткнут до GZIPInputStream

До. Код я приводил. Да и иначе быть не может- файлы очень большие, качаются по нескольку часов, а сессия на гугле час. Так что без моей прослойки большие файлы ввобще невозможно скачать.

...

Рейтинг:

0 / 0

22.12.2015, 11:49:38

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134300

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

Alexey Tomin,

Ну, надо дебажить прерывание потока. Чтение же не само по себе отваливается. Либо исключение, либо -1, либо чтение идёт мимо метода, который ты переопределил.

...

Рейтинг:

0 / 0

22.12.2015, 11:58:27

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134394

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

BlazkowiczAlexey Tomin,

Ну, надо дебажить прерывание потока. Чтение же не само по себе отваливается. Либо исключение, либо -1, либо чтение идёт мимо метода, который ты переопределил.

Мимо- я не вижу куда. В InputStream три метода read - один (read(byte[])) перенаправляет рядом, а два других я перекрыл.
skip и available не перекрывал- вроде и не надо.

...

Рейтинг:

0 / 0

22.12.2015, 12:47:11

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134446

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

Alexey Tomin,

Если ошибку сложно повторить, чтобы продебажить, значит надо логов больше добавить. Оно же не по магии какой-то из метода выходит. И ещё я подозреваю что BufferedReader может раньше времени прерваться. Можно на Scanner переделать чтобы построчно читать.

...

Рейтинг:

0 / 0

22.12.2015, 13:18:40

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134839

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

BlazkowiczAlexey Tomin,

Если ошибку сложно повторить, чтобы продебажить, значит надо логов больше добавить. Оно же не по магии какой-то из метода выходит. И ещё я подозреваю что BufferedReader может раньше времени прерваться. Можно на Scanner переделать чтобы построчно читать.

А это, оказывается, бага в JDK .
В контракте InputStream#available() сказано, что если файл кончился, то метод должен вернуть 0.
Но обратное не верно- банально, если буфер пуст, но где-то там байты есть, то можно вернуть 0 (собственно ДОЛЖНО вернуть 0).

Однако java.util.zip.GZIPInputStream#readTrailer считает, что если в "нужный" момент available() == 0 то файл кончился и можно уходить.
Т.е., если он дочитал сжатый блок и в этот момент буфер потока пуст- то gzip всех кидает.

В общем понятно- мне придётся никогда не возвращать 0, даже если реально буфер пуст.

...

Рейтинг:

0 / 0

22.12.2015, 16:35:56

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39134894

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

Alexey TominА это, оказывается, бага в JDK .

Вот же негодяи! Я сам планировал так делать. А оказывается нельзя.

Alexey TominВ общем понятно-мне придётся никогда не возвращать 0, даже если реально буфер пуст.
Как вариант. А других реализаций GzipInputStream разве нет?

...

Рейтинг:

0 / 0

22.12.2015, 17:10:47

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39135332

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

BlazkowiczAlexey TominА это, оказывается, бага в JDK .

Вот же негодяи! Я сам планировал так делать. А оказывается нельзя.

Как?

BlazkowiczAlexey TominВ общем понятно-мне придётся никогда не возвращать 0, даже если реально буфер пуст.
Как вариант. А других реализаций GzipInputStream разве нет?

Эта хоть и с багой, зато уже родная :) А что в других- неизвестно.
В принципе мне всё равно, когда поток читать- эта штука проблем в итоге не создаёт.

...

Рейтинг:

0 / 0

23.12.2015, 07:43:08

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39135419

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

Alexey TominКак?

Тащить по сетке большие файлы через GZIP. У меня аналогичный код, но текстовые файлы поменьше. Читаю через Scanner вместо BufferedReader. На сервере лимит на размер файла. Пользователи хотят побольше. Вот, думал аналогичным образом gzip навернуть сверху. Но будет точно такой же косяк.

...

Рейтинг:

0 / 0

23.12.2015, 09:49:36

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39135609

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

BlazkowiczAlexey TominКак?

Тащить по сетке большие файлы через GZIP. У меня аналогичный код, но текстовые файлы поменьше. Читаю через Scanner вместо BufferedReader. На сервере лимит на размер файла. Пользователи хотят побольше. Вот, думал аналогичным образом gzip навернуть сверху. Но будет точно такой же косяк.

Во-первых они обещают, что уже поправили , но версию я не понял (в 1.8.66 воспроизводится) - так что может просто подождать.
Во-вторых можно bzip2 использовать- он жмёт в 2 раза лучше (чем с гугла приходит- я, правда, не знаю, какой там алгоритм DoubleClick использует).
В третьих можно обёртку написать, которая будет при вызове available пытаться получить данные :)

...

Рейтинг:

0 / 0

23.12.2015, 11:39:37

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39135625

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

Alexey Tomin,

Но это не совсем тот тикет. Первый, который ты привел всё ещё открыт.

...

Рейтинг:

0 / 0

23.12.2015, 11:45:27

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39135813

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Blazkowicz Но это не совсем тот тикет. Первый, который ты привел всё ещё открыт.

Точно, есть разница.

Кстати, чтобы что-нибудь туда допивать, надо платную техподдержку иметь? Support Identifier же только так получается?

...

Рейтинг:

0 / 0

23.12.2015, 12:48:37

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39135816

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

Alexey Tomin,

Можно перейти на OpenJDK и свободно её пропатчить.

...

Рейтинг:

0 / 0

23.12.2015, 12:49:24

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39136333

Basil A. Sidorov

Участник

Сообщения: 11 633

Рейтинг: 0 / 0

Alexey TominОднако java.util.zip.GZIPInputStream#readTrailer считает, что если в "нужный" момент available() == 0 то файл кончился и можно уходить.
Т.е., если он дочитал сжатый блок и в этот момент буфер потока пуст- то gzip всех кидаетЭто не совсем бага.
gzip-поток может состоять из отдельных (независимых) кусков. Можно, например, сжать кучу файлов, а потом "склеить" их в один простым копированием, и это будет корректный архив - утилита gzip развернёт его в один файл, где точно так же будут "склеены" исходные файлы. Использовать в такой ситуации available - очень ненадёжно.

...

Рейтинг:

0 / 0

23.12.2015, 17:18:20

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39136339

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

Basil A. SidorovЭто не совсем бага. Использовать в такой ситуации available - очень ненадёжно.
Так почему "не бага"?

...

Рейтинг:

0 / 0

23.12.2015, 17:23:05

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39136350

Basil A. Sidorov

Участник

Сообщения: 11 633

Рейтинг: 0 / 0

Потому, что нельзя полагаться на available в определении конца данных.
В некоторых случаях нельзя даже полагаться на то, что запросив "точно доступное" количество байт в read мы это количество получим - необходимо писать цикл с выходом по концу файла.

...

Рейтинг:

0 / 0

23.12.2015, 17:32:15

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39136364

Blazkowicz

Участник

Сообщения: 25 080

Рейтинг: 0 / 0

Basil A. SidorovПотому, что нельзя полагаться на available в определении конца данных.
В некоторых случаях нельзя даже полагаться на то, что запросив "точно доступное" количество байт в read мы это количество получим - необходимо писать цикл с выходом по концу файла.
Правильно. А GZIPInputStream на него полагается и это бага. Ты что-то не допонял.

...

Рейтинг:

0 / 0

23.12.2015, 17:48:17

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39136431

Basil A. Sidorov

Участник

Сообщения: 11 633

Рейтинг: 0 / 0

Да, блин: "Если вы утомлены, то лучше не летайте сегодня - отдохните" (ц) В.Каверин, "Два капитана" :)

Но, тем не менее, ошибка, похоже, в InflaterInputStream.available() - возможна ситуация, когда распакованные данные закончились, а входной поток - ещё нет.
По логике, available() должен возвращать 1 (что-то есть, но неизвестно, что именно), а он возвращает 0, основываясь на признаке конца распакованных данных.

...

Рейтинг:

0 / 0

23.12.2015, 18:46:50

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39136444

Basil A. Sidorov

Участник

Сообщения: 11 633

Рейтинг: 0 / 0

Хотя, если ещё подумать, то ситуация сильно неоднозначная и лучше унаследоваться от InflaterInputStream, самостоятельно написав разбор существенных частей заголовков и пропуск ненужного

...

Рейтинг:

0 / 0

23.12.2015, 18:51:53

| Ответить | Цитировать | Написать

Google storage api - попытка обойти багу...

#39136708

Alexey Tomin

Участник

Откуда: Самара

Сообщения: 1 715

Рейтинг: 0 / 0

Basil A. SidorovДа, блин: "Если вы утомлены, то лучше не летайте сегодня - отдохните" (ц) В.Каверин, "Два капитана" :)

Но, тем не менее, ошибка, похоже, в InflaterInputStream.available() - возможна ситуация, когда распакованные данные закончились, а входной поток - ещё нет.

При чём здесь это?

InputStream#available() возвращает количество байт, которые можно получить из потока БЕЗ БЛОКИРОВОК.
При этом оно int, т.е. заведомо меньше размера файла.
Так вот- вполне нормальной является ситуация, что это значение 0, а поток ещё читать и читать.

Другое дело (смотрим в кишки GZIPInputStream), что обычно до запроса available дело не доходит. Оно проверяется только если метод Inflater#inflateBytes вернул -1. Почему это происходит выяснить сложно- метод нативный, до чтения исходников JDK я пока не дошёл. Если локально читать с гуглостореджа, то это случается несколько раз в гигабайт, но локально мне вседа везло и Inflater#len в этом месте было больше волшебного числа 26.

Basil A. SidorovПо логике, available() должен возвращать 1 (что-то есть, но неизвестно, что именно), а он возвращает 0, основываясь на признаке конца распакованных данных.

Нет, возвращает 0 сетевой InputStream. Просто потому, что буфер в этот момент пуст. Хотя, если честно, мне просто было лень переопределять его (InputStream мой из-за протухания токена).

...

Рейтинг:

0 / 0

24.12.2015, 08:29:37

| Ответить | Цитировать | Написать

25 сообщений из 27, страница 1 из 2

все

Форумы / Java [игнор отключен] [закрыт для гостей] / Google storage api - попытка обойти багу...

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=59&msg=39135419&tid=2124519]:	0ms
get settings:	9ms
get forum list:	20ms
check forum access:	4ms
check topic access:	4ms
track hit:	47ms
get topic data:	12ms
get forum data:	3ms
get page messages:	83ms
get tp. blocked users:	2ms
others:	193ms

total:	377ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы