Сетевой обмен. Парсинг информации на лету / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Сетевой обмен. Парсинг информации на лету

10 сообщений из 10, страница 1 из 1

Сетевой обмен. Парсинг информации на лету

#40119378

FreeAdman

Гость

Всем привет!

Парни, подскажите, пожалуйста такой момент.

Для примера возьмём простой сокет и обычный HTTP протокол.
Соединяемся с сервером, отправляем данные и получаем ответ от сервера.

Вот какой вопрос... А как происходит парсинг данных в таком случае когда размер заголовков неизвестен?
Ведь для разделения заголовков и данных нужно отловить два перевода строки #13#13.

И вот предположим маленькая скорость, ну пусть 1 байт в секунду, и что - каждую секунду парсить буфер на #13#13 чтобы узнать где конец заголовков? Да как-то не оптимально и дурно...

А если речь о XML? Клиент скачивает, например, какие-то данные или параметры в XML формате, как отловить начало и конец тега <data></data> для парсинга не зная размер данных ?

...

Рейтинг:

0 / 0

12.12.2021, 06:43:44

| Ответить | Цитировать | Написать

Сетевой обмен. Парсинг информации на лету

#40119381

Соколинский Борис

Участник

Откуда: Москва

Сообщения: 13 304

Рейтинг: 0 / 0

FreeAdman,

Не путай транспортный и информационный протоколы.
Если в сокете есть данные, то они есть целиком.

...

Рейтинг:

0 / 0

12.12.2021, 08:51:22

| Ответить | Цитировать | Написать

Сетевой обмен. Парсинг информации на лету

#40119385

FreeAdman

Гость

Соколинский Борис,
Что за чушь? Вы видимо не поняли вопроса да и не хотите.
В сокете те данные которые пришли, но вам же не понять что данные кусками приходят, а не ЦЕЛИКОМ.

...

Рейтинг:

0 / 0

12.12.2021, 09:34:36

| Ответить | Цитировать | Написать

Сетевой обмен. Парсинг информации на лету

#40119391

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Все верно кроме того что надо с начала парсить каждый раз. Парси только свеже полученное.

...

Рейтинг:

0 / 0

12.12.2021, 11:01:46

| Ответить | Цитировать | Написать

Сетевой обмен. Парсинг информации на лету

#40119400

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

FreeAdman

А если речь о XML? Клиент скачивает, например, какие-то данные или параметры в XML формате, как отловить начало и конец тега <data></data> для парсинга не зная размер данных ?

Xml - парсеру не нужно никаких заголовков. Он будет ждать завершающегося тега.

Но в твоём вопросе столько всего намешано. Если ты на сыром сокетном протоколе хочешь стримить
множество документов - то надо будет ввести еще один слой абстракций. Что-то вроде месседжа. И разделить
стрим месседжей от внутреннего содеоржимого который тоже может быть InputStream но при этом делать
close после того как документ распаршен до конца.

...

Рейтинг:

0 / 0

12.12.2021, 12:15:18

| Ответить | Цитировать | Написать

Сетевой обмен. Парсинг информации на лету

#40119401

FreeAdman

Гость

Dima T

Все верно кроме того что надо с начала парсить каждый раз. Парси только свеже полученное.

Мне пора на свалку. Я об этом не подумал :(

mayton

Xml - парсеру не нужно никаких заголовков. Он будет ждать завершающегося тега

т.е. ему перенаправить поток и он сам разберется? ))

...

Рейтинг:

0 / 0

12.12.2021, 12:27:23

| Ответить | Цитировать | Написать

Сетевой обмен. Парсинг информации на лету

#40119412

Anatoly Moskovsky

Участник

Откуда: Odessa

Сообщения: 6 713

Рейтинг: 0 / 0

FreeAdman,

Обычно применяется State Machine (автомат состояний).
Каждый кусок считанный из сокета переводит автомат в новое состояние (или не изменяет состояние).
В самом простейшем случае, состояние это просто весь предыдущий текст из сокета, как из вашего примера с HTTP, где каждый раз про добавлении нового куска данных все парсится заново.
Но конечно есть более оптимальные реализации.
Например можно вдобавок хранить на каком состоянии и позиции оборвался предыдущий парсинг и продолжить парсинг прямо с того же места.

...

Рейтинг:

0 / 0

12.12.2021, 14:01:25

| Ответить | Цитировать | Написать

Сетевой обмен. Парсинг информации на лету

#40119419

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

FreeAdman

Dima T

Все верно кроме того что надо с начала парсить каждый раз. Парси только свеже полученное.

Мне пора на свалку. Я об этом не подумал :(

mayton

Xml - парсеру не нужно никаких заголовков. Он будет ждать завершающегося тега

т.е. ему перенаправить поток и он сам разберется? ))

Да. Ниакакая длина потока ему не нужна. Длина - это вообще артефакт http-протокола
который может поддерживаться а может и нет. Для динамического содержимого этот
параметр вообще неизвестен на момент формирования хедера респонса.

...

Рейтинг:

0 / 0

12.12.2021, 15:18:55

| Ответить | Цитировать | Написать

Сетевой обмен. Парсинг информации на лету

#40119551

VSVLAD

Участник

Откуда: Краснодар

Сообщения: 1 379

Рейтинг: 0 / 0

FreeAdman,

Вариантов с HTTP несколько:
1) если в полученных данных первый стмвол "G", тогда читаем до тех пор пока не встретится два переноса строк. Как только пришла новая порция данных, проверяем что там, если опять не найден конец пакета, возвращаемся на чтение. Как разработчик сервера, ты можешь ограничиться неким таймаутом, поэтому плохих или медленных клиентов сбрасывать,в том числе не передающих вообще данных.

2) если первый символ "P", тогда ищем текст Content-Length:, читаем до конца строки число, ищем опять же две пустые строки и считаем размер в байтах после этих символов и ждём до тех пор, пока не наберётся не меньше указанного в заголовке.
Если же размер пакета не передали, то значит ищем 2 конца строки - далее идут данные, читаем их до тех пор, пока сокет не отключился. Как клиент отключился, значит данные дошли. Такой вариант тоже есть (вообще с серверной стороны про это почитать ещё надо, с клиентской так и работает, при скачивании файлов, когда заранее неизвестен его размер)

...

Рейтинг:

0 / 0

13.12.2021, 08:11:47

| Ответить | Цитировать | Написать

Сетевой обмен. Парсинг информации на лету

#40119575

Basil A. Sidorov

Участник

Сообщения: 11 633

Рейтинг: 0 / 0

VSVLAD, "Неправильно ты, дядя Фёдор, бутерброд ешь".

P.S.
Прежде, чем раздавать вредные советы, полезно почитать спецификацию. Про диапазоны, chunked и вот это вот всё.

...

Рейтинг:

0 / 0

13.12.2021, 10:35:15

| Ответить | Цитировать | Написать

10 сообщений из 10, страница 1 из 1

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Сетевой обмен. Парсинг информации на лету

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&msg=40119381&tid=1339607]:	0ms
get settings:	5ms
get forum list:	11ms
check forum access:	2ms
check topic access:	2ms
track hit:	78ms
get topic data:	7ms
get forum data:	2ms
get page messages:	29ms
get tp. blocked users:	1ms
others:	226ms

total:	363ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы