powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / MySQL [игнор отключен] [закрыт для гостей] / Парсить сайт HTML и сохранять в sql
13 сообщений из 13, страница 1 из 1
Парсить сайт HTML и сохранять в sql
    #38354141
dobrohod
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Доброго времени суток.

Есть сайт (локальный), нужно с него парсить данные (каждый 0,5-1 час) и сохранять в базу.
Из базы данные перерабатываются и выводятся на внешний сайт.
Знаю html и немного javascript.

Никогда не парсил, полный ноль в sql, но готов обучиться.
Направьте в нужном направлении, ткните носом.
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38354155
Arhat109
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dobrohod,

не надо парсить, а тем более "локальный" сайт. Это занятие идиотов, поскольку "локальный сайт" показывает только локальные данные. Возьмите данные и залейте их куда вам надо напрямую.
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38354373
dobrohod
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Arhat109,
Уважаемый, если было бы все так просто, я бы сюда не писал. Все данные сайта вместе с веб-сервером зашиты в контроллере машины (оборудования). В сам контроллер лезть нет никакого желания и возможности, если там что то вывести из строя, то это полный пэ. Вызов спеца из Италии будет стоить больших лавандосов.
Теперь хотелось бы услышать адекватных предложений.
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38354396
qwerty112
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
dobrohod,

Экселем попробуй открыть свою лок.ссылку
- если будет в "удобоваримом" виде, - считай повезло, пишешь на чём нибудь "приблуду" (хоть на своём javascript), которая будет Эксель формировать и закачивать на серер
- если не очень "удобоваримо", но "сносно" - через автоматизацию Экселя, в в той же "приблуде" , доводишь до нужного вида
- если совсем всё плохо - "ты попал". т.е варианты всё равно есть, через ту же автоматизацию - искать по MSXML2.XMLHTTP , MSXML2.DOMDocument и ещё много чего разного, но универсального "рецепта" - нет

зы
всё это не имеет ни какого отношения к СКЛ - вообще, и к МуСКЛ - в частности ...
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38354418
dobrohod
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
qwerty112,

спасибо, попробую
в sqle я бы хотел хранить данные, т.к инфа немного корявой будет приходить и для дальнейшей статистики
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38354440
vkle
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dobrohodЕсть сайт (локальный), нужно с него парсить данные (каждый 0,5-1 час) и сохранять в базу.
Из базы данные перерабатываются и выводятся на внешний сайт.
В первом приближении - прокси (апачевский mod_proxy, например). Но он сам по себе ничего не преобразует, просто отдает то что прислали. Вариант самый простейший, но не факт что подойдет Вам.

Далее - есть проги вроде curl или wget для скачивания странички и сохранения контента в файл. Чем-то (скриптом?) что-то там преобразовываете и отдаете файл вебсерверу на раздачу. Попутно выдираете данные для записи в БД. Запуск скрипта на крон повесить.
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38354610
dobrohod
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
vkle,

покалдую пока с этим
потом будут вопросы как в бд это сунуть
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38354717
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dobrohod,

MySQL тут ни причем, он ходить по сайтам не умеет, а парсить умеет крайне плохо. На каком языке будете реализовывать?
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38355257
Arhat109
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dobrohod,

Как вам уже написали, Мускуль тут совсем "не при делах". Наиболее адекватный совет: обратитесь к поставщику оборудования. Если он это "зашил", значит или поделом или знает КАК достать по-другому. Опять же "парсить сайт" - незачем.
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38355963
deblogger
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
"И сохранять в базу" звучит как "и немедленно выпил".

Думаю тут можно подгрести ИЕ и WScript. Базу сделаете в абсцессе или в екзеле. Проблема в том что вскриптом придется натурально парсить хтмл. С другой стороны есть ФФ и Greasemonkey, с которым ничего парсить не надо - получаете доступ ко всему ДОМу и всем переменным если таковые имеются. Но сохраняться локально с него можно только через одно место - локал стораж, или тупо в настройки ФФ, а оттуда уже вручную.
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38355964
deblogger
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сайт у них локальный, понимаешь. Это называется веб-интерфейс.

Вы ж не говорите про настройки роутера - это локальный сайт. Потому что это веб-интерфейс настроек роутера.
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38356272
lnker
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Я НОВИЧЕК - НЕ ПИНАТЬ ЕСЛИ ДУМАЮ НЕ ПРАВИЛЬНО! :)

локальный сайт.. Он статический только HTML или динамический PHP+MySQL+HTML?

1. Если второе - то в консоли работать с выборкой и дублированием данных в другую БД, он ведь все равно держит эту БД локально, хотя если она локальна - тогда отпадает смысл парсить, так как к ней есть открытый доступ....
накрайний по такому принципу duplicate.bat :
Код: sql
1.
2.
3.
4.
5.
6.
7.
8.
9.
mysql -u root
CREATE SCHEMA IF NOT EXISTS parsed_db;
USE parsed_db;
CREATE TABLE IF NOT EXISTS t_parsed_data(a INT NOT NUL, b ...);
INSERT INTO   t_parsed_data
 SELECTa,b,.. 
 FROM main_db.t_main_table;

--как то так


2. Если первое (с опыта парса онлайн ресурсов, так как все равно нам доступен только голый HTML) то я делал так:

Borland Delphi с IdHTTP, формировал ссылки страниц которые меня интересовали, грузил их содержимое в Мемо.
Анализировал содержимое, искал ту комбинацию тегов, которая могла бы идентифицировать начало интересующей меня области (напр. таблицы) и конце (где уже описывался подвал сайта),
Было Примерно так
var

sart_exp,end_exp:string;
start_str,end_str:int


//Через IdHTTP1 GET грузим содержание страницы в Мемо1
For i=0 to Memo1.Lines.Count do
begin
if pos(start,Memo1.Lines.String[i])<>0 then
start_str:=i+6; //где 6 - количество строк от идентифицирующей области
//которые нужно пропустить, например для того чтобы
//пропустить 6 строк отведенных на рекламу (или на то что нас отделяет от области парса)
//это будет номер строки с первым элементом для парса

if pos(end,Memo1.Lines.String[i])<>0 then
end_str:=i-8; //это будет номером строки последнего елемента
break;
end;



for i:=start_int to end int do
begin
//описываем алгоритм разбора строки и записывем рузльтат в Мемо2 в стиле COMMA SEPARATED VALUE
end;

//Все что выше понятно что находиться еще в одном цикле который генерирует StringList с набором ссылок по которым нужно пробежаться.
//Сохранаяем Мемо2 в my.csv

Код: sql
1.
2.
3.
insert.bat:
mysql -u root
INSERT SOURCE команда



надеюсь как минимум моя субъективная идея понятна
...
Рейтинг: 0 / 0
Парсить сайт HTML и сохранять в sql
    #38356320
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
lnkerЯ НОВИЧЕК - НЕ ПИНАТЬ ЕСЛИ ДУМАЮ НЕ ПРАВИЛЬНО! :)

локальный сайт.. Он статический только HTML или динамический PHP+MySQL+HTML?Вы бы хоть читали внимательно...dobrohodВсе данные сайта вместе с веб-сервером зашиты в контроллере машины (оборудования).
...
Рейтинг: 0 / 0
13 сообщений из 13, страница 1 из 1
Форумы / MySQL [игнор отключен] [закрыт для гостей] / Парсить сайт HTML и сохранять в sql
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]