Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
Здравствуйте. от HTML я человек далекий. Изучаю Java, и решил в качестве эксперимента написать программку, которая парсит программу ТВ передач на сегодня и пишет их в файлик. Взял за источник Яндексовый сервис: https://tv.yandex.ru/213?grid=main&period=all-day Подключиться смог, а дальше просто колом встал. у еня был минимальный запас знаний по HTML, но тут столько Тегов, что я концов не нахожу.. И так, я хочу (для примера) понять, какой тег/атрибут/значение (кстати, какая разница между 2мя последними?) мне нужно запросить у парсера, чтобы вытянуть заголовок канала "Первый", и далее все его передачи (в цикле, видимо)? т.е. у меня нет понимания того, как заголовок (имя канала) связано с его содержимым (колонкой под ним). и по имени какого атрибута я могу запросить у парсера значение наименования канала я очень далек от этих тонкостей, поэтому буду рад очень пережеванному объяснению. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 10:36 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
Вообще для парсинга страничек применяются 2 подхода: регулярными выражениями и используя dom модель. для второго пути в php применяется SimpleXML, в python - lxml & grab, в java не знаю, не сталкивался, но разумеется есть и другие библиотеки. Чтобы дать более детальные советы надо глубже впираться в задачу -- это долго извини. Но я посоветовал бы для учебного эксперимента взять что-нибудь попроще структурой, чем код страниц сделанных программистами яндекса. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 11:34 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
Лебедкин, мой вопрос не в том, как распарсить - я написал, что распарсил ее. вопрос в том, какой атрибут/значение/ключ запросить у парсера, чтобы получить в результате значение, заключенное в теге ("Первый", например)? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 11:39 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
чтобы ответить на этот вопрос надо код видеть. ищешь по тексту слово "Первый" и смотришь где, в каких тегах, оно находится. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 11:48 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
Лебедкин, это кусок из середины Код: html 1. 2. 3. 4. 5. 6. 7. 8. 9. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 11:54 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
у парсера есть возможность элемент по классу запросить? ну и запрашивай нужный класс: tv-channel-title__text. но вообще, на мой взгляд такие вещи легче регулярными выражениями парсить. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 12:07 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
Судя по тому, что теги типа этого <link rel="apple-touch-icon" sizes="180x180" href="/favicon/apple-touch-icon-180x180.png"/> закрыты слешом, код страницы xml-валидный, а потому всю инфу можно вытянуть с помощью xsl. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 12:19 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
wolfioмой вопрос не в том, как распарсить - я написал, что распарсил ее. Как и чем распарсил? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 12:21 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
ЕвгенийВ, JSoup ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 12:48 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
wolfioу еня был минимальный запас знаний по HTML, но тут столько Тегов, что я концов не нахожу.. найди тэги <a> с классом tv-event и посмотри на значение атрибута data-bem - в нём json-строка с информацией о событии немножко поосвоишься с селекторами - телеканалы выделишь. ЗЫ здесь с javascript работают, JSOUP - это Java, в соседнем форуме вопросы задавай - http://www.sql.ru/forum/java ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 13:35 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
wolfioJSoup Можно где-то так : Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2016, 18:58 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
Изопропил, уважаемый хим.элемент (не допускаем тавтологию) , ты просто царь. мой респект от души. Благодарю за отличный наглядный пример, благодаря которому я понял как обращаться к HTML тегам. Увековечу ссылку на эту тему в своей микробиблиотеке)) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.03.2016, 17:35 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
Изопропил, а ты не мог бы разъяснить, для большей понятности, зачем нужны эти три строки? Код: java 1. 2. 3. 4. почему сразу нельзя прочитать div.tv-event__title-inner? я попробовал, но результат в тексте просто "div".. я понимаю, что это скорее всего особенности html, но хотелось бы все в деталях понять ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.03.2016, 17:53 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
wolfio, просто мне сначала показалось, что в json вся информация о передаче. а потом оставил для полноты примера ( не только html разбор, но и чтение попутного json), рано или поздно может пригодиться. (всё из опыта разборок со спецификациями на сайтах производителей, там ещё требовался crawler4j для обхода сайта) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.03.2016, 18:41 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
Изопропил, спасибо :) последнее предложение не понял вообще))) надеюсь, придет с опытом)) спасибо еще раз! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.03.2016, 09:11 |
|
||
|
Помогите советом по парсингу странички
|
|||
|---|---|---|---|
|
#18+
Добрый день:) возвращаюсь к этой же теме)) хочу выгружать теперь всю ту же тв-программу, но адрес немножко изменился https://tv.yandex.ru/213?grid=all&period=all-day - это там где ВСЕ каналы. Сложность для меня в том, что страница эта данные обо всех каналах сразу не дает. Если смотреть в браузере, надо докрутить страничку донизу, затем страничка догружает данные, и так 10 раз, пока не прогрузится целиком. Пожалуйста подскажите, как называется этот элемент на странице, чтобы понять какие примеры по его вычитыванию мне искать. Спасибо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.03.2016, 13:56 |
|
||
|
|

start [/forum/topic.php?fid=22&fpage=57&tid=1445377]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
35ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
49ms |
get tp. blocked users: |
2ms |
| others: | 279ms |
| total: | 403ms |

| 0 / 0 |
