Гость
Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / Парсер на C# / 25 сообщений из 30, страница 1 из 2
14.08.2015, 15:14
    #39029542
Vadimkaaa
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Стоит задача спарсить ссылки на все профили из заданной группы на linkedin
Код: c#
1.
2.
3.
4.
5.
6.
7.
8.
9.
private void button1_Click(object sender, EventArgs e)
        {
 
            WebClient w = new WebClient();
            string page = w.DownloadString("https://www.linkedin.com/grp/members?gid=4007199&page=1");
            string link = "<strong><a href=\"(*?)\"><img";
            foreach (Match match in Regex.Matches(page, link))
                listBox1.Items.Add(match.Groups[1].Value);
        }


Но беда в том что нужна авторизация. Я авторизируюсь через компонент WebBrowser а парсю через WebClient
И получается что WebClient заходя на линкед не авторизирован и кидает на стр. авторизации.
Помогите решить проблему.
...
Рейтинг: 0 / 0
14.08.2015, 15:25
    #39029552
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
VadimkaaaСтоит задача спарсить ссылки на все профили из заданной группы на linkedin
Код: c#
1.
2.
3.
4.
5.
6.
7.
8.
9.
private void button1_Click(object sender, EventArgs e)
        {
 
            WebClient w = new WebClient();
            string page = w.DownloadString("https://www.linkedin.com/grp/members?gid=4007199&page=1");
            string link = "<strong><a href=\"(*?)\"><img";
            foreach (Match match in Regex.Matches(page, link))
                listBox1.Items.Add(match.Groups[1].Value);
        }


Но беда в том что нужна авторизация. Я авторизируюсь через компонент WebBrowser а парсю через WebClient
И получается что WebClient заходя на линкед не авторизирован и кидает на стр. авторизации.
Помогите решить проблему.это все равно что авторизироваться в хроме, а заходить через оперу.

сюда копай: 11365485
...
Рейтинг: 0 / 0
14.08.2015, 15:27
    #39029554
Vadimkaaa
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Antonariy, я понимаю)
можно как то куки передать с WebBrowser в WebClient ?
...
Рейтинг: 0 / 0
14.08.2015, 15:34
    #39029560
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
VadimkaaaAntonariy, я понимаю)
можно как то куки передать с WebBrowser в WebClient ?не пробовал выдирать из WB куки, но думаю, что геморой тот еще.

что мешает посмотреть отправляемый на авторизацию запрос и отправить такой же через WebClient? куки в него и вернутся.
...
Рейтинг: 0 / 0
14.08.2015, 15:36
    #39029564
Axeleron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Antonariyчто мешает посмотреть отправляемый на авторизацию запрос и отправить такой же через WebClient? куки в него и вернутся.
Не ясно только под какой браузер эти куки создадутся.
...
Рейтинг: 0 / 0
14.08.2015, 15:40
    #39029569
Сон Веры Павловны
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Vadimkaaa
Код: c#
1.
2.
3.
4.
5.
6.
7.
8.
9.
private void button1_Click(object sender, EventArgs e)
        {
 
            WebClient w = new WebClient();
            string page = w.DownloadString("https://www.linkedin.com/grp/members?gid=4007199&page=1");
            string link = "<strong><a href=\"(*?)\"><img";
            foreach (Match match in Regex.Matches(page, link))
                listBox1.Items.Add(match.Groups[1].Value);
        }


И еще раз про парсинг html регэксами .
...
Рейтинг: 0 / 0
14.08.2015, 15:48
    #39029573
Vadimkaaa
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Antonariy, кстати, возможно как-то через WebClient пройти авторизацию?
если да, то подскажите как?
спасибо!
...
Рейтинг: 0 / 0
14.08.2015, 16:25
    #39029615
skyANA
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
...
Рейтинг: 0 / 0
14.08.2015, 16:36
    #39029627
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
AxeleronAntonariyчто мешает посмотреть отправляемый на авторизацию запрос и отправить такой же через WebClient? куки в него и вернутся.
Не ясно только под какой браузер эти куки создадутся.Они не "под браузер", они вернутся в веб-клиент в http-заголовках, ты их оттуда заберешь и будешь цеплять к заголовкам при последующих запросах.
...
Рейтинг: 0 / 0
14.08.2015, 16:36
    #39029628
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Ну, не ты, а ТС :)
...
Рейтинг: 0 / 0
14.08.2015, 16:40
    #39029635
ЕвгенийВ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
...
Рейтинг: 0 / 0
14.08.2015, 16:40
    #39029636
Vadimkaaa
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Antonariy,

а как все это сделать?
...
Рейтинг: 0 / 0
14.08.2015, 16:44
    #39029641
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
VadimkaaaAntonariy, кстати, возможно как-то через WebClient пройти авторизацию?
если да, то подскажите как?
спасибо!открыть хром, зайти на сайт, нажать f12, авторизироваться. в закладке network найти запрос, в котором отправлялись авторизационные данные, изучить его, создать такой же через веб-клиент.
...
Рейтинг: 0 / 0
14.08.2015, 16:44
    #39029642
ЕвгенийВ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Сон Веры Павловны И еще раз про парсинг html регэксами .
Бред какой то.
...
Рейтинг: 0 / 0
14.08.2015, 16:47
    #39029644
petalvik
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Vadimkaaa,

а получить нужные данные через linkedin api никак?
...
Рейтинг: 0 / 0
14.08.2015, 16:48
    #39029645
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
ЕвгенийВСон Веры Павловны И еще раз про парсинг html регэксами .
Бред какой то.+1

что мешает парсить не за один проход, а по кускам?
...
Рейтинг: 0 / 0
14.08.2015, 16:52
    #39029647
Axeleron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
ЕвгенийВVadimkaaa,
https://msdn.microsoft.com/ru-ru/library/system.net.webclient.credentials(v=vs.110).aspx
Это не то, это позволяет доменные крендели ставить, а у linkedin своя аутентификация.
...
Рейтинг: 0 / 0
14.08.2015, 16:53
    #39029651
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
AntonariyVadimkaaaAntonariy, кстати, возможно как-то через WebClient пройти авторизацию?
если да, то подскажите как?
спасибо!открыть хром, зайти на сайт, нажать f12, авторизироваться. в закладке network найти запрос, в котором отправлялись авторизационные данные, изучить его, создать такой же через веб-клиент.в самом примитивном случае нужно просто отправить post'ом текст типа login=xxx&pass=yyy, вернется заголовок типа

Set-Cookie:STATEID=900d8c6f-50c0-4826-8025-ed0d9a074661; path=/

это ответ на авторизацию в моем текущем проекте, смысловая часть тут STATEID=900d8c6f-50c0-4826-8025-ed0d9a074661
...
Рейтинг: 0 / 0
14.08.2015, 16:55
    #39029653
Axeleron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
AntonariyЕвгенийВпропущено...

Бред какой то.+1

что мешает парсить не за один проход, а по кускам?
Ну вот, еще не залогинились, а уже парсить пытаемся :)
...
Рейтинг: 0 / 0
14.08.2015, 16:57
    #39029655
Vadimkaaa
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
petalvik, читал. не могу никак связать WebClient...
...
Рейтинг: 0 / 0
14.08.2015, 16:58
    #39029656
Axeleron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Вообще поддерживаю вариант skyANA 18018910
Не делал под WinForms, но именно так когда-то писал Single Sign On аутентификацию. Я бы первым делом именно так и в данном случае пробовал бы. Куки вытаскиваются после первого запроса на аутентификацию, а потом посалаются при каждом запросе к сайту.
...
Рейтинг: 0 / 0
14.08.2015, 16:59
    #39029657
Axeleron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Vadimkaaapetalvik, читал. не могу никак связать WebClient...
Думается, ни WebClient, ни WebBrowser тут вообще не нужны.
...
Рейтинг: 0 / 0
14.08.2015, 17:00
    #39029658
Vadimkaaa
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
Axeleron, я просто не знаю как потом данные спарсить
...
Рейтинг: 0 / 0
14.08.2015, 17:02
    #39029660
Axeleron
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
VadimkaaaAxeleron, я просто не знаю как потом данные спарсить
Получите страницу со всеми тэгами в HttpWebResponse и будете парсить. Других вариантов нет, раз хочется захватывать данные нелегально
...
Рейтинг: 0 / 0
14.08.2015, 17:02
    #39029661
Antonariy
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер на C#
попробовал войти в линкедин, там передаваемый текст сложнее.

1й параметр это логин, 2й - пароль, 3й и последний наверное не обязательны (последний точно), а чтобы получить 4 и 5, нужно предварительно веб-клиентом сделать get https://www.linkedin.com/ и выдрать из формы:

Код: html
1.
2.
<input name="loginCsrfParam" id="loginCsrfParam-login" type="hidden" value="891ad83a-b9f4-498c-8874-a43e05d0439b"/>
<input name="sourceAlias" id="sourceAlias-login" type="hidden" value="0_7r5yezRXCiA_H0CRD8sf6DhOjTKUNps5xGTqeX8EEoi"/>

хотя может и они не обязательны.
...
Рейтинг: 0 / 0
Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / Парсер на C# / 25 сообщений из 30, страница 1 из 2
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]