Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Unix-системы [игнор отключен] [закрыт для гостей] / скриншоты web страниц + html код / 18 сообщений из 18, страница 1 из 1
11.02.2010, 00:11
    #36461924
YuriyB
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
Добрый день !

нужно делать скриншоты web страниц полностью
а также одновременно сохранять полностью их код
включая все подключаемые файлы (*.js)

желательно на основе mozilla.

какие есть возможности ?

или как можно в командной строке вызвать mozilla
и получить html код страницы.
...
Рейтинг: 0 / 0
11.02.2010, 01:10
    #36461965
Relic Hunter
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
YuriyB,

wget ?
...
Рейтинг: 0 / 0
11.02.2010, 01:47
    #36461971
YuriyB
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
Relic HunterYuriyB,

wget ?

это не совсем то .

во первых он не грузит весь код (например подключаемые javascript скрипты)
а во вторых мне же нужет и скриншот еще.

есть например плугин для firefox
http://torisugari.googlepages.com/cmdlnprint_0_5_1.xpi

который позволяет

$> firefox -print google.com
быстро получить скриншо НО КОД страницы ?!

реальное это скрипт с Xfvb ( X-Server) вместе с Firefox
с какамито модулями или плугинами
...
Рейтинг: 0 / 0
11.02.2010, 02:04
    #36461978
Relic Hunter
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
YuriyBво первых он не грузит весь код (например подключаемые javascript скрипты)Грузит...

Код: plaintext
1.
2.
3.
4.
5.
# wget --?
Recursive download:
  -r,  --recursive          specify recursive download.
  -l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
       --delete-after       delete files locally after downloading them.
...
Рейтинг: 0 / 0
11.02.2010, 02:57
    #36461990
Андрей Панфилов
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
Relic Hunter,

я полагаю ТС нужно что-то вроде того, как IE сохраняет в mhtml
...
Рейтинг: 0 / 0
11.02.2010, 03:07
    #36461993
Relic Hunter
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
TC,

IE легко автоматизируется на VB SCRIPT, если это не принципиально.
...
Рейтинг: 0 / 0
11.02.2010, 10:29
    #36462313
ART-CODE
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
Интересно, а кто будет "гасить" запросы пользователю из скриптов (Alert/MsgBox) и сообщения об ошибке на странице, и различные вопросы от подсистемы безопасности ?
И не просто гасить, а давать разумные, осмысленные ответы на вопросы.

imho, фото экрана нужно желать с отключенными скриптами, хотя это означает , что изображение
не будет в точности соответствовать тому, что увидит пользователь.

Чтобы выцепить картинку из IE можно погуглить
IHTMLElementRender
IViewObject
Про другие броузеры ничего сказать не могу...

Насчет сохранения HTML кода: а что насчет Ajax - динамичеких запросов ?
Данные, полученные динамически могут не сохранятся в файл и вы их никак не получите , кроме перехвата на проксике т.е. создаете туннель на обычных сокетах и заставляете работать браузер через этот туннель, весь траффик перехватываете и сохраняете. Впрочем погут быть проблемы с перехватом SSL... но это тоже решаемо.

С++ Вам в помощь.
...
Рейтинг: 0 / 0
11.02.2010, 10:50
    #36462390
YuriyB
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
вот еть наробтки здесь


http://www.mysql-apache-php.com/website_screenshot.htm

или щдесь


http://marginalhacks.com/Hacks/html2jpg/

но номрального работающего решения я пока не нашел
...
Рейтинг: 0 / 0
11.02.2010, 12:25
    #36462802
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
YuriyB,

Сделать полный скриншот всей страницы может плагин FireShot
В FF автоматизировать действия можно плагинами Greasemonkey и iMacros (оба не пробовал).
...
Рейтинг: 0 / 0
11.02.2010, 12:49
    #36462906
YuriyB
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
miksoftYuriyB,

Сделать полный скриншот всей страницы может плагин FireShot
В FF автоматизировать действия можно плагинами Greasemonkey и iMacros (оба не пробовал).


но мне нужно ОДНОВРЕМЕННО получить и код страницы (html , js ,....)

задача такая

есть 10000 URL с динамическими страницами которые меняют свой код при каждом новом вызове
и раз в час с них нужно делать полный скриншот всей страницы
если в её коде попадается заданый ключ
...
Рейтинг: 0 / 0
11.02.2010, 13:03
    #36462945
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
YuriyBmiksoftYuriyB,

Сделать полный скриншот всей страницы может плагин FireShot
В FF автоматизировать действия можно плагинами Greasemonkey и iMacros (оба не пробовал).


но мне нужно ОДНОВРЕМЕННО получить и код страницы (html , js ,....)

задача такая

есть 10000 URL с динамическими страницами которые меняют свой код при каждом новом вызове
и раз в час с них нужно делать полный скриншот всей страницы
если в её коде попадается заданый ключТаки попробуйте. Возможно, плагин для автоматизации сможет дать команду другому плагину на сохранение скришота.
Кстати, при беглом просмотре документации iMacros похоже, что он умеет делать скриншоты самостоятельно.
...
Рейтинг: 0 / 0
11.02.2010, 13:12
    #36462986
ineedyou
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
YuriyB
если в её коде попадается заданый ключ

Ввиду того, что часть htmlя может генерится "на лету" всякими шмяксами-аяксами-жаваскриптами, страницу нужно натурально запускать браузером и только после этого получать эффективный html код (не загруженный html, а именно отображаемый - они могут отличаться).

Если же "заданный ключ" должен присутствовать в html в чистом виде, то сойдёт любая качалка, от вгета до например http://www.httrack.com/.
...
Рейтинг: 0 / 0
11.02.2010, 13:21
    #36463032
YuriyB
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
ineedyouYuriyB
если в её коде попадается заданый ключ

Ввиду того, что часть htmlя может генерится "на лету" всякими шмяксами-аяксами-жаваскриптами, страницу нужно натурально запускать браузером и только после этого получать эффективный html код (не загруженный html, а именно отображаемый - они могут отличаться).

Если же "заданный ключ" должен присутствовать в html в чистом виде, то сойдёт любая качалка, от вгета до например http://www.httrack.com/.

все генерится "на лету" всякими шмяксами-аяксами-жаваскриптами
...
Рейтинг: 0 / 0
11.02.2010, 13:30
    #36463078
ineedyou
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
На какой ОС планируется крутить проект? Если венда может имеет смысл подумать в сторону средств типа Rational Robot ?
...
Рейтинг: 0 / 0
11.02.2010, 13:36
    #36463100
YuriyB
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
ineedyouНа какой ОС планируется крутить проект? Если венда может имеет смысл подумать в сторону средств типа Rational Robot ?

это всё равно

любая ОС любой язык программирования
...
Рейтинг: 0 / 0
11.02.2010, 13:38
    #36463108
ART-CODE
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
Блин, совсем забыл про PDFCreator и тому подобные !
Отправляете страницу на печать в виртуальный принтер, получаете на выходе готовую картинку.

Может попробовать "подмес" своего скрипта в тело HTML документа?
на проксике в каждую HTML форму добавляете строчку типа
<script language = JScript src="http://127.0.0.1/grab/GrabHTML.js"></script> в этом скрипте отслеживаете загрузку документа,
считываете HTML и отправляете на печать на виртуальный принтер.... и всего делов !

Если будут проблемы с контекстом безопасности (загрузка скрипта из другого домена), то тогда можно побробовать иначе
- дописывать свой код не как отдельный файл, а как внедренный в html , ну или прямо в тело "родного" скрипта.
...
Рейтинг: 0 / 0
11.02.2010, 16:52
    #36463814
ART-CODE
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
Простенький пример управлениия IE на VBS.
Cкрипт открывает указанный URL,
печатает страницу на принтер по умолчанию (поставьте PDFCreator)
сохраняет в файл InnerHTML документа.
...
Рейтинг: 0 / 0
14.02.2010, 21:21
    #36468698
YuriyB
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
скриншоты web страниц + html код
ART-CODEПростенький пример управлениия IE на VBS.
Cкрипт открывает указанный URL,
печатает страницу на принтер по умолчанию (поставьте PDFCreator)
сохраняет в файл InnerHTML документа.

я попробовал сделать на C#
всё работает отлично

но InnerHTML это не полный html код.

мне нужно еще "добраться " до iframeмов
которые содержат в себе еще iframeмы
...
Рейтинг: 0 / 0
Форумы / Unix-системы [игнор отключен] [закрыт для гостей] / скриншоты web страниц + html код / 18 сообщений из 18, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]